Αναλυτική μεγάλων δεδομένων με χρήση Hadoop

Ξωνίκης, Γεώργιος

Please use this identifier to cite or link to this item: http://dspace.lib.uom.gr/handle/2159/22286

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Ταραμπάνης, Κωνσταντίνος	el
dc.contributor.author	Ξωνίκης, Γεώργιος	el
dc.date.accessioned	2018-11-01T10:23:57Z	-
dc.date.available	2018-11-01T10:23:57Z	-
dc.date.issued	2018	el
dc.identifier.uri	http://dspace.lib.uom.gr/handle/2159/22286	-
dc.description	Διπλωματική εργασία--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2018.	el
dc.description.abstract	Ο όγκος των δεδομένων που παράγονται, αποθηκεύονται και αναλύονται αυξάνεται εκθετικά κάθε χρόνο. Η πρόκληση για την επιστήμη των υπολογιστών είναι να αναπτύσσει συστήματα τα οποία θα μπορούν να ανταποκριθούν στις παραπάνω ανάγκες. Χωρίς εργαλεία για την αποθήκευση και απλοποίηση της επεξεργασίας και ανάλυσης των Big Data, η δυνατότητα χρήσης τους για τη παραγωγή γνώσης είναι περιορισμένη. Η τεράστια ανάπτυξη του κλάδου του Data Science οφείλεται σε μεγάλο βαθμό στο γεγονός ότι πλέον υπάρχουν τα εργαλεία για τη διαχείριση των Big Data. Σε αυτό βοήθησε η εξέλιξη στον τομέα του Distributed Computing που ευνόησε την ανάπτυξη συστημάτων όπως το Hadoop και το Spark. Η παρούσα διπλωματική εργασία χωρίζεται ουσιαστικά σε δύο μέρη. Στα αρχικά κεφάλαια αναλύονται οι έννοιες των Big Data και παρουσιάζονται οι σημαντικότερες τεχνικές ανάλυσης τους, ενώ δίνεται ιδιαίτερη βαρύτητα στην κατανόηση του Machine Learning. Έπειτα, γίνεται η περιγραφή των δυνατοτήτων των κατανεμημένων συστημάτων Hadoop και Spark, καθώς και η παρουσίαση των βασικών διαφορών και χρήσεων μεταξύ των σχεσιακών βάσεων δεδομένων με τις NoSQL βάσεις. Το θεωρητικό μέρος τελειώνει με την μελέτη των βασικών εννοιών των Recommender Systems και του μαθηματικού αλγορίθμου που θα χρησιμοποιηθεί για την ανάπτυξη του αντίστοιχου συστήματος. Στο δεύτερο μέρος της διπλωματικής εργασίας, γίνεται πρακτική εφαρμογή των πιο σύγχρονων εργαλείων αποθήκευσης και ανάλυσης των Big Data με επίκεντρο το Hadoop. Αρχικά, με την χρήση της Python, γίνεται η διερευνητική ανάλυση του σετ δεδομένων που αποτελείται από εκατομμύρια αξιολογήσεις ταινιών. Στην συνέχεια, γίνεται η ανάλυση των δεδομένων με την χρήση διάφορων εργαλείων όπως το Hive, το Tableau, η MySQL και η HBase. Τέλος, χρησιμοποιώντας την κατανεμημένη επεξεργαστική ισχύ του Spark, αναπτύσσουμε ένα Recommender System ταινιών, το οποίο θα λαμβάνει υπόψη τις προτιμήσεις του κάθε χρήστη και θα του προτείνει ποιες ταινίες είναι πιθανότερο να του αρέσουν.	el
dc.format.extent	115	el
dc.language.iso	el	en
dc.publisher	Πανεπιστήμιο Μακεδονίας	el
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Μεγάλα δεδομένα	el
dc.subject	Hadoop	en
dc.subject	Spark	en
dc.subject	Μηχανική μάθηση	el
dc.subject	Python	el
dc.subject	Διερευνητική ανάλυση	el
dc.title	Αναλυτική μεγάλων δεδομένων με χρήση Hadoop	el
dc.type	Electronic Thesis or Dissertation	en
dc.type	Text	en
dc.contributor.department	Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα	el
Appears in Collections:	ΔΠΜΣ Πληροφοριακά Συστήματα (M)

Files in This Item:

File	Description	Size	Format
XonikisGeorgiosMSc2018.pdf	Διπλωματική Εργασία - Αναλυτική Μεγάλων Δεδομένων με Χρήση Hadoop	4.42 MB	Adobe PDF	View/Open

Show simple item record Recommend this item

This item is licensed under a Creative Commons License

PSEPHEDA

Digital Library and Institutional Repository