Apache Spark
Bár a Hadoop MapReduce egy jól használható eszköznek bizonyult az elosztott adatfeldolgozáshoz, érezhetjük, hogy megvannak a maga hibái, mint a sok boiler-plate kód és a rugalmatlan architektúra.
Az Apache Spark az ilyen jellegű hibák orvoslására készült el.
A Spark több nyelven is elérhető, mi Python nyelvű változatát a pyspark
-ot fogjuk használni.