Létrehozás
A kontextusobjektumon keresztül több különböző módon is létrehozhatunk RDD-ket.
A kontextus parallelize(collection[, numSlices])
metódusa egy a kódban már létező gyűjteményből készít RDD-t.
numbers = [1, 2, 4, 6, 7, 2, 4, 6, 5]
rdd = sc.parallelize(numbers, 3)
Minden létrehozó művelet esetén megadható, hogy hány partíció jöjjön létre.
Sokszor azonban egy adott fájl tartalmát szeretnénk beolvasni. Erre szolgál a kontextus
textFile(name[, minPartitions, use_unicode])
metódusa.
text = sc.textFile('alkotmany.txt')
További beolvasási lehetőségek (ezek mind a SparkContext példányszintű metódusai):
range(start[, end, step, numSlices]) # intervallumból
emptyRDD() # üres RDD lérehozása
sequenceFile(path[, keyClass, valueClass, …]) # szekvenciális fájl
binaryRecords(path, recordLength) # fix méretű rekordokat tartalmazó bináris fájl beolvasása
binaryFiles(path[, minPartitions]) # bináris fájlok beolvasása
pickleFile(name[, minPartitions]) # egy korábban fájlba mentett RDD visszatöltése
wholeTextFiles(path[, minPartitions, …]) # egy mappa fájljainak beolvasása