Το Apache Spark είναι μία γρήγορη και γενικής χρήσης υπολογιστική πλατφόρμα ανοικτού κώδικα για εφαρμογές πάνω σε μεγάλα δεδομένα. Βασικό της πλεονέκτημα είναι ότι παρέχει ένα υψηλού επιπέδου API το οποίο καθιστά δυνατό τον συνδυασμό διαφορετικών ειδών υπολογισμών, που προηγουμένως απαιτούσαν την χρήση ξεχωριστών κατανεμημένων συστημάτων (π.χ. επεξεργασία κειμένου, μηχανική μάθηση, ροές, αλγόριθμοι γράφων κ.τ.λ.), ενώ παράλληλα αυτοματοποιεί και αποκρύπτει από τους χρήστες του σημαντικές λεπτομέρειες χαμηλού επιπέδου. Ως αποτέλεσμα το Apache Spark καθιστά εύκολο και ανέξοδο τον συνδυασμό διαφορετικών ειδών επεξεργασίας και μειώνει το κόστος διατήρησης ξεχωριστών εργαλείων. Ένα από τα κύρια χαρακτηριστικά του Apache Spark είναι η ικανότητά του να τρέχει υπολογισμούς στη μνήμη, ενώ παράλληλα υποστηρίζει αποδοτικά πολύπλοκες εφαρμογές που κάνουν χρήση δευτερεύουσας μνήμης.
Το τρίωρο αυτό tutorialπεριλαμβάνει μία λεπτομερή περιγραφή του πυρήνα του Apache Spark και σύντομες πρακτικές ασκήσεις.
Συγκεκριμένα, το πρώτο μέρος του tutorial(2 ώρες) στοχεύει: α) στην κατανόηση των εσωτερικών διεργασιών της πλατφόρμας Apache Spark, εντοπίζοντας πτυχές που επηρεάζουν την απόδοση των εφαρμογών, β) στην περιγραφή των διαθέσιμων μετασχηματισμών δεδομένων και λειτουργιών της πλατφόρμας, και τέλος, γ) σε μία γενική παρουσίαση του οικοσυστήματος της πλατφόρμας του Apache Spark
Μετά από ένα σύντομο διάλειμμα, ακολουθεί το πρακτικό μέρος (1 ώρα), το οποίο θα βοηθήσει τους συμμετέχοντες να γράψουν τις πρώτες τους Apache Sparkεφαρμογές υπό την μορφή απλών μικρών εργασιών. Για την ολοκλήρωση του δεύτερου αυτού μέρους παρακαλείστε να έχετε μαζί σας ένα φορητό υπολογιστή.
Dimitrios Plexousakis is Director of ICS-FORTH, Research Director, head of the Information Systems Laboratory, and Professor of the Department of Computer Science, University of Crete. His research interests span the following areas: Knowledge Representation and Knowledge Base Design with emphasis on the representation and management of temporal knowledge; Distributed Database Systems and Databases on the Web with focus on the study of formal knowledge representation models and query languages for the Semantic Web; Formal reasoning systems and applications of artificial intelligence in database systems with focus on dynamic action theories and belief revision; Business process and e-service modeling over wide-area distributed information systems. He has published over 140 articles in international conferences and journals and has served on the program committees of numerous international conferences.
Panagiotis Papadakos is a postdoctoral researcher at FORTH-ICS. He owns a PhD in Computer Science from the University of Crete. His main research interests lie in the areas of Exploratory Search, the Semantic Web, Recommendation Engines and Big-Data processing, with an emphasis on preference-based interactive exploration of multi-dimensional information spaces.
Vangelis Kritsotakis is a technical staff member at FORTH-ICS. He received his MSc degree in Internet Computing from the University of Surrey and his BSc degree in Mathematics & Computer Science from the University of Sussex. His research interests lie in the areas of Biomedical Information Systems, Semantic Web, Information Modelling and Data Integration, Service Oriented Technologies and Big Data Processing.