Please use this identifier to cite or link to this item: http://dspace.lib.uom.gr/handle/2159/24589
Author: Σταυρίδης, Απόστολος
Title: Μελέτη του περιβάλλοντος scikit-multiflow για την εξόρυξη γνώσης σε δεδομένα ροής
Date Issued: 2020
Department: Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης στην Εφαρμοσμένη Πληροφορική
Supervisor: Ευαγγελίδης, Γεώργιος
Abstract: Στο υπολογιστικό μοντέλο των ροών δεδομένων, τα δεδομένα φθάνουν συνεχώς σε μια δυνητικά άπειρη ροή η οποίο πρέπει να υποβληθεί σε επεξεργασία από ένα σύστημα με περιορισμένους πόρους. Ο κύριος περιορισμός είναι ότι η κύρια μνήμη είναι μικρή και μπορεί να περιέχει μόνο ένα μικρό τμήμα του stream, επομένως τα περισσότερα δεδομένα πρέπει να απορρίπτονται αμέσως μετά την επεξεργασία. Η διαδικτυακή μάθηση ενημερώνει το μοντέλο της μετά από κάθε εμφάνιση δεδομένων χωρίς πρόσβαση σε όλα τα δεδομένα του παρελθόντος, εξ ου και ισχύουν οι περιορισμοί του υπολογιστικού μοντέλου ροής δεδομένων. Η ροή δεδομένων δεν είναι απλώς ένας τεχνικός περιορισμός στη μηχανική μάθηση, καθώς τα γρήγορα δεδομένα δεν αφορούν μόνο την ισχύ επεξεργασίας αλλά και τη γρήγορη σημασιολογία. Το scikit-multiflow αποτελεί ένα περιβάλλον μηχανικής μάθησης και εξόρυξης γνώσης ανοικτού κώδικα για δεδομένα πολλαπλών εξόδων / πολλαπλών ετικετών και ροών δεδομένων. Στην τρέχουσα κατάσταση του, το scikit-multiflow περιέχει γεννήτριες ροών δεδομένων, κατηγοριοποιητές πολλαπλών εξόδων / πολλαπλών ετικετών δεδομένων ροής, ανιχνευτές αλλαγής και μεθόδους αξιολόγησης. Σκοπός της μελέτης είναι η διερεύνηση και η σύγκριση υλοποιημένων αλγορίθμων κατηγοριοποίησης του scikit-multiflow πάνω σε ροές δεδομένων. Στην εργασία παρουσιάζεται ένα παράδειγμα, εργασίας ταξινόμησης στο οποίο χρησιμοποιείται η γεννήτρια SEA, της οποίας τα δεδομένα χρησιμοποιήθηκαν για την εκπαίδευση και τη σύγκριση ενός ταξινομητή Naive Bayes και ενός SGDClassifier. Παρόλο που o NaiveBayes παρουσίασε καλύτερη απόδοση στην αρχή της ροής, o SGDClassifier τελικά είχε λίγο καλύτερη απόδοση. Ο NaiveBayes ήταν γρηγορότερος και δέσμευσε ελαφρώς περισσότερη μνήμη, ωστόσο ο SGDClassifier αν και πιο αργός παρουσίασε μικρότερο αποτύπωμα μνήμης. Για την μελέτη της επίδρασης της απόκλισης στη μάθηση συγκρίθηκαν δύο δημοφιλή μοντέλα ροής, το HoeffdingTreeClassifier και η εκδοχή του HoeffdingAdaptiveTreeClassifier που λαμβάνει υπόψη την απόκλιση. Το HoeffdingAdaptiveTreeClassifier πέτυχε καλύτερη απόδοση ενώ απαιτούσε λιγότερο χώρο στη μνήμη. Αυτό δείχνει ότι έχει εφαρμοστεί ο μηχανισμός αντικατάστασης κλάδου που ενεργοποιείται από το ADWIN, με αποτέλεσμα μια λιγότερο περίπλοκη δομή δέντρου να αντιπροσωπεύει τα δεδομένα.
Keywords: Ροές Δεδομένων
Scikit-Multiflow
Εξόρυξη Γνώσης
Information: Διπλωματική εργασία--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2020.
Appears in Collections:Π.Μ.Σ. στην Εφαρμοσμένη Πληροφορική (M)

Files in This Item:
File Description SizeFormat 
StauridisApostolosMsc2020.pdf1.01 MBAdobe PDFView/Open
StauridisApostolosMsc2020present.pdf1.26 MBAdobe PDFView/Open


Items in Psepheda are protected by copyright, with all rights reserved, unless otherwise indicated.