Ugrás a fő tartalomhoz

DataFrame

A DataFrame egy az RDD-nél magasabb API, mely az adatok manipulálását ORM és SQL szerű interfészen keresztül teszi lehetővé.

A DataFrame strukturált adatok (pl. JSON, CSV, relációs adatbázis rekordjai) feldolgozására van tervezve.

megjegyzés

A DataFrame teljes mértékben az RDD API-ra épül.

Inicializálás

A DataFrame API használatához egy SparkSession objektumot kell létrehozni.

from pyspark.sql import  *
from pyspark.sql.functions import *

spark = SparkSession.builder.getOrCreate()
megjegyzés

A from pyspark.sql.functions import * utasítás a munkamenet létrehozásához nem szükséges, de a későbbiekben szükséges lesz csomag elemeire.

A builder automatikusan létre fogja hozni, a spark kontextust és a spark konfigurációt, melyeket a sparkContext és conf adattagokon át el is tudunk érni.