Το Apache Spark είναι μία γρήγορη και γενικής χρήσης υπολογιστική πλατφόρμα ανοικτού κώδικα για εφαρμογές πάνω σε μεγάλα δεδομένα. Βασικό της πλεονέκτημα είναι ότι παρέχει ένα υψηλού επιπέδου API το οποίο καθιστά δυνατό τον συνδυασμό διαφορετικών ειδών υπολογισμών, που προηγουμένως απαιτούσαν την χρήση ξεχωριστών κατανεμημένων συστημάτων (π.χ. επεξεργασία κειμένου, μηχανική μάθηση, ροές, αλγόριθμοι γράφων κ.τ.λ.), ενώ παράλληλα αυτοματοποιεί και αποκρύπτει από τους χρήστες του σημαντικές λεπτομέρειες χαμηλού επιπέδου. Ως αποτέλεσμα το Apache Spark καθιστά εύκολο και ανέξοδο τον συνδυασμό διαφορετικών ειδών επεξεργασίας και μειώνει το κόστος διατήρησης ξεχωριστών εργαλείων. Ένα από τα κύρια χαρακτηριστικά του Apache Spark είναι η ικανότητά του να τρέχει υπολογισμούς στη μνήμη, ενώ παράλληλα υποστηρίζει αποδοτικά πολύπλοκες εφαρμογές που κάνουν χρήση δευτερεύουσας μνήμης.
Το τρίωρο αυτό tutorialπεριλαμβάνει μία λεπτομερή περιγραφή του πυρήνα του Apache Spark και σύντομες πρακτικές ασκήσεις.
Συγκεκριμένα, το πρώτο μέρος του tutorial(2 ώρες) στοχεύει: α) στην κατανόηση των εσωτερικών διεργασιών της πλατφόρμας Apache Spark, εντοπίζοντας πτυχές που επηρεάζουν την απόδοση των εφαρμογών, β) στην περιγραφή των διαθέσιμων μετασχηματισμών δεδομένων και λειτουργιών της πλατφόρμας, και τέλος, γ) σε μία γενική παρουσίαση του οικοσυστήματος της πλατφόρμας του Apache Spark
Μετά από ένα σύντομο διάλειμμα, ακολουθεί το πρακτικό μέρος (1 ώρα), το οποίο θα βοηθήσει τους συμμετέχοντες να γράψουν τις πρώτες τους Apache Sparkεφαρμογές υπό την μορφή απλών μικρών εργασιών. Για την ολοκλήρωση του δεύτερου αυτού μέρους παρακαλείστε να έχετε μαζί σας ένα φορητό υπολογιστή.