Αναλυτική μεγάλων δεδομένων με χρήση Hadoop

Ξωνίκης, Γεώργιος

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://dspace.lib.uom.gr/handle/2159/22286

Συγγραφέας:	Ξωνίκης, Γεώργιος
Τίτλος:	Αναλυτική μεγάλων δεδομένων με χρήση Hadoop
Ημερομηνία Έκδοσης:	2018
Τμήμα:	Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα
Επόπτης Καθηγητής:	Ταραμπάνης, Κωνσταντίνος
Περίληψη:	Ο όγκος των δεδομένων που παράγονται, αποθηκεύονται και αναλύονται αυξάνεται εκθετικά κάθε χρόνο. Η πρόκληση για την επιστήμη των υπολογιστών είναι να αναπτύσσει συστήματα τα οποία θα μπορούν να ανταποκριθούν στις παραπάνω ανάγκες. Χωρίς εργαλεία για την αποθήκευση και απλοποίηση της επεξεργασίας και ανάλυσης των Big Data, η δυνατότητα χρήσης τους για τη παραγωγή γνώσης είναι περιορισμένη. Η τεράστια ανάπτυξη του κλάδου του Data Science οφείλεται σε μεγάλο βαθμό στο γεγονός ότι πλέον υπάρχουν τα εργαλεία για τη διαχείριση των Big Data. Σε αυτό βοήθησε η εξέλιξη στον τομέα του Distributed Computing που ευνόησε την ανάπτυξη συστημάτων όπως το Hadoop και το Spark. Η παρούσα διπλωματική εργασία χωρίζεται ουσιαστικά σε δύο μέρη. Στα αρχικά κεφάλαια αναλύονται οι έννοιες των Big Data και παρουσιάζονται οι σημαντικότερες τεχνικές ανάλυσης τους, ενώ δίνεται ιδιαίτερη βαρύτητα στην κατανόηση του Machine Learning. Έπειτα, γίνεται η περιγραφή των δυνατοτήτων των κατανεμημένων συστημάτων Hadoop και Spark, καθώς και η παρουσίαση των βασικών διαφορών και χρήσεων μεταξύ των σχεσιακών βάσεων δεδομένων με τις NoSQL βάσεις. Το θεωρητικό μέρος τελειώνει με την μελέτη των βασικών εννοιών των Recommender Systems και του μαθηματικού αλγορίθμου που θα χρησιμοποιηθεί για την ανάπτυξη του αντίστοιχου συστήματος. Στο δεύτερο μέρος της διπλωματικής εργασίας, γίνεται πρακτική εφαρμογή των πιο σύγχρονων εργαλείων αποθήκευσης και ανάλυσης των Big Data με επίκεντρο το Hadoop. Αρχικά, με την χρήση της Python, γίνεται η διερευνητική ανάλυση του σετ δεδομένων που αποτελείται από εκατομμύρια αξιολογήσεις ταινιών. Στην συνέχεια, γίνεται η ανάλυση των δεδομένων με την χρήση διάφορων εργαλείων όπως το Hive, το Tableau, η MySQL και η HBase. Τέλος, χρησιμοποιώντας την κατανεμημένη επεξεργαστική ισχύ του Spark, αναπτύσσουμε ένα Recommender System ταινιών, το οποίο θα λαμβάνει υπόψη τις προτιμήσεις του κάθε χρήστη και θα του προτείνει ποιες ταινίες είναι πιθανότερο να του αρέσουν.
Λέξεις Κλειδιά:	Μεγάλα δεδομένα Hadoop Spark Μηχανική μάθηση Python Διερευνητική ανάλυση
Πληροφορίες:	Διπλωματική εργασία--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2018.
Δικαιώματα:	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εμφανίζεται στις Συλλογές:	ΔΠΜΣ Πληροφοριακά Συστήματα (M)

Αρχεία σε αυτό το Τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
XonikisGeorgiosMSc2018.pdf	Διπλωματική Εργασία - Αναλυτική Μεγάλων Δεδομένων με Χρήση Hadoop	4.42 MB	Adobe PDF	Προβολή/Ανοιγμα

Εμφανίστε την πλήρη εγγραφή Προτείνετε αυτό το τεκμήριο

Αυτό το τεκμήριο προστατεύεται από Αδεια Creative Commons

ΨΗΦΙΔΑ

Ψηφιακή Βιβλιοθήκη και Ιδρυματικό Αποθετήριο