Please use this identifier to cite or link to this item:
http://dspace.lib.uom.gr/handle/2159/24589
Author: | Σταυρίδης, Απόστολος |
Title: | Μελέτη του περιβάλλοντος scikit-multiflow για την εξόρυξη γνώσης σε δεδομένα ροής |
Date Issued: | 2020 |
Department: | Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης στην Εφαρμοσμένη Πληροφορική |
Supervisor: | Ευαγγελίδης, Γεώργιος |
Abstract: | Στο υπολογιστικό μοντέλο των ροών δεδομένων, τα δεδομένα φθάνουν συνεχώς σε μια δυνητικά άπειρη ροή η οποίο πρέπει να υποβληθεί σε επεξεργασία από ένα σύστημα με περιορισμένους πόρους. Ο κύριος περιορισμός είναι ότι η κύρια μνήμη είναι μικρή και μπορεί να περιέχει μόνο ένα μικρό τμήμα του stream, επομένως τα περισσότερα δεδομένα πρέπει να απορρίπτονται αμέσως μετά την επεξεργασία. Η διαδικτυακή μάθηση ενημερώνει το μοντέλο της μετά από κάθε εμφάνιση δεδομένων χωρίς πρόσβαση σε όλα τα δεδομένα του παρελθόντος, εξ ου και ισχύουν οι περιορισμοί του υπολογιστικού μοντέλου ροής δεδομένων. Η ροή δεδομένων δεν είναι απλώς ένας τεχνικός περιορισμός στη μηχανική μάθηση, καθώς τα γρήγορα δεδομένα δεν αφορούν μόνο την ισχύ επεξεργασίας αλλά και τη γρήγορη σημασιολογία. Το scikit-multiflow αποτελεί ένα περιβάλλον μηχανικής μάθησης και εξόρυξης γνώσης ανοικτού κώδικα για δεδομένα πολλαπλών εξόδων / πολλαπλών ετικετών και ροών δεδομένων. Στην τρέχουσα κατάσταση του, το scikit-multiflow περιέχει γεννήτριες ροών δεδομένων, κατηγοριοποιητές πολλαπλών εξόδων / πολλαπλών ετικετών δεδομένων ροής, ανιχνευτές αλλαγής και μεθόδους αξιολόγησης. Σκοπός της μελέτης είναι η διερεύνηση και η σύγκριση υλοποιημένων αλγορίθμων κατηγοριοποίησης του scikit-multiflow πάνω σε ροές δεδομένων. Στην εργασία παρουσιάζεται ένα παράδειγμα, εργασίας ταξινόμησης στο οποίο χρησιμοποιείται η γεννήτρια SEA, της οποίας τα δεδομένα χρησιμοποιήθηκαν για την εκπαίδευση και τη σύγκριση ενός ταξινομητή Naive Bayes και ενός SGDClassifier. Παρόλο που o NaiveBayes παρουσίασε καλύτερη απόδοση στην αρχή της ροής, o SGDClassifier τελικά είχε λίγο καλύτερη απόδοση. Ο NaiveBayes ήταν γρηγορότερος και δέσμευσε ελαφρώς περισσότερη μνήμη, ωστόσο ο SGDClassifier αν και πιο αργός παρουσίασε μικρότερο αποτύπωμα μνήμης. Για την μελέτη της επίδρασης της απόκλισης στη μάθηση συγκρίθηκαν δύο δημοφιλή μοντέλα ροής, το HoeffdingTreeClassifier και η εκδοχή του HoeffdingAdaptiveTreeClassifier που λαμβάνει υπόψη την απόκλιση. Το HoeffdingAdaptiveTreeClassifier πέτυχε καλύτερη απόδοση ενώ απαιτούσε λιγότερο χώρο στη μνήμη. Αυτό δείχνει ότι έχει εφαρμοστεί ο μηχανισμός αντικατάστασης κλάδου που ενεργοποιείται από το ADWIN, με αποτέλεσμα μια λιγότερο περίπλοκη δομή δέντρου να αντιπροσωπεύει τα δεδομένα. |
Keywords: | Ροές Δεδομένων Scikit-Multiflow Εξόρυξη Γνώσης |
Information: | Διπλωματική εργασία--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2020. |
Appears in Collections: | Π.Μ.Σ. στην Εφαρμοσμένη Πληροφορική (M) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
StauridisApostolosMsc2020.pdf | 1.01 MB | Adobe PDF | View/Open | |
StauridisApostolosMsc2020present.pdf | 1.26 MB | Adobe PDF | View/Open |
Items in Psepheda are protected by copyright, with all rights reserved, unless otherwise indicated.