Please use this identifier to cite or link to this item: http://dspace.lib.uom.gr/handle/2159/22286
Author: Ξωνίκης, Γεώργιος
Title: Αναλυτική μεγάλων δεδομένων με χρήση Hadoop
Date Issued: 2018
Department: Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα
Supervisor: Ταραμπάνης, Κωνσταντίνος
Abstract: Ο όγκος των δεδομένων που παράγονται, αποθηκεύονται και αναλύονται αυξάνεται εκθετικά κάθε χρόνο. Η πρόκληση για την επιστήμη των υπολογιστών είναι να αναπτύσσει συστήματα τα οποία θα μπορούν να ανταποκριθούν στις παραπάνω ανάγκες. Χωρίς εργαλεία για την αποθήκευση και απλοποίηση της επεξεργασίας και ανάλυσης των Big Data, η δυνατότητα χρήσης τους για τη παραγωγή γνώσης είναι περιορισμένη. Η τεράστια ανάπτυξη του κλάδου του Data Science οφείλεται σε μεγάλο βαθμό στο γεγονός ότι πλέον υπάρχουν τα εργαλεία για τη διαχείριση των Big Data. Σε αυτό βοήθησε η εξέλιξη στον τομέα του Distributed Computing που ευνόησε την ανάπτυξη συστημάτων όπως το Hadoop και το Spark. Η παρούσα διπλωματική εργασία χωρίζεται ουσιαστικά σε δύο μέρη. Στα αρχικά κεφάλαια αναλύονται οι έννοιες των Big Data και παρουσιάζονται οι σημαντικότερες τεχνικές ανάλυσης τους, ενώ δίνεται ιδιαίτερη βαρύτητα στην κατανόηση του Machine Learning. Έπειτα, γίνεται η περιγραφή των δυνατοτήτων των κατανεμημένων συστημάτων Hadoop και Spark, καθώς και η παρουσίαση των βασικών διαφορών και χρήσεων μεταξύ των σχεσιακών βάσεων δεδομένων με τις NoSQL βάσεις. Το θεωρητικό μέρος τελειώνει με την μελέτη των βασικών εννοιών των Recommender Systems και του μαθηματικού αλγορίθμου που θα χρησιμοποιηθεί για την ανάπτυξη του αντίστοιχου συστήματος. Στο δεύτερο μέρος της διπλωματικής εργασίας, γίνεται πρακτική εφαρμογή των πιο σύγχρονων εργαλείων αποθήκευσης και ανάλυσης των Big Data με επίκεντρο το Hadoop. Αρχικά, με την χρήση της Python, γίνεται η διερευνητική ανάλυση του σετ δεδομένων που αποτελείται από εκατομμύρια αξιολογήσεις ταινιών. Στην συνέχεια, γίνεται η ανάλυση των δεδομένων με την χρήση διάφορων εργαλείων όπως το Hive, το Tableau, η MySQL και η HBase. Τέλος, χρησιμοποιώντας την κατανεμημένη επεξεργαστική ισχύ του Spark, αναπτύσσουμε ένα Recommender System ταινιών, το οποίο θα λαμβάνει υπόψη τις προτιμήσεις του κάθε χρήστη και θα του προτείνει ποιες ταινίες είναι πιθανότερο να του αρέσουν.
Keywords: Μεγάλα δεδομένα
Hadoop
Spark
Μηχανική μάθηση
Python
Διερευνητική ανάλυση
Information: Διπλωματική εργασία--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2018.
Rights: Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Appears in Collections:ΔΠΜΣ Πληροφοριακά Συστήματα (M)

Files in This Item:
File Description SizeFormat 
XonikisGeorgiosMSc2018.pdfΔιπλωματική Εργασία - Αναλυτική Μεγάλων Δεδομένων με Χρήση Hadoop4.42 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons