DataFrame
A DataFrame egy az RDD-nél magasabb API, mely az adatok manipulálását ORM és SQL szerű interfészen keresztül teszi lehetővé.
A DataFrame strukturált adatok (pl. JSON, CSV, relációs adatbázis rekordjai) feldolgozására van tervezve.
megjegyzés
A DataFrame teljes mértékben az RDD API-ra épül.
Inicializálás
A DataFrame API használatához egy SparkSession objektumot kell létrehozni.
from pyspark.sql import *
from pyspark.sql.functions import *
spark = SparkSession.builder.getOrCreate()
megjegyzés
A from pyspark.sql.functions import * utasítás a munkamenet létrehozásához nem szükséges, de a későbbiekben szükséges
lesz csomag elemeire.
A builder automatikusan létre fogja hozni, a spark kontextust és a spark konfigurációt, melyeket a sparkContext és
conf adattagokon át el is tudunk érni.