Le document présente Spark, un moteur de traitement de données distribué, développé à Berkeley en 2009, qui surpasse Hadoop en rapidité et en efficacité. Spark utilise des RDD (Resilient Distributed Datasets) pour manipuler des données de manière tolérante aux pannes et propose un modèle de programmation plus flexible que celui de Hadoop. Il détaille aussi le fonctionnement de Spark dans un cluster, impliquant des workers, des executors, et un cluster manager pour la gestion des ressources.