Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://dspace.lib.uom.gr/handle/2159/16240
Συγγραφέας: Ουγιάρογλου, Στέφανος
Ougiaroglou, Stephanos
Τίτλος: Algorithms and techniques for efficient and effective nearest neighbours classification.
Αλλοι τίτλοι: Αλγόριθμοι και τεχνικές για αποδοτική και αποτελεσματική κατηγοριοποίηση εγγύτερων γειτόνων.
Ημερομηνία Έκδοσης: 2014
Τμήμα: Πανεπιστήμιο Μακεδονίας. Τμήμα Εφαρμοσμένης Πληροφορικής (ΕΠ)
Επόπτης Καθηγητής: Ευαγγελίδης, Γεώργιος
Περίληψη: Although the k-NN classifier is considered to be an effective classification algorithm, it has some major weaknesses that may render its use inappropriate for some application domains and / or datasets. The first one is the high computational cost involved (all distances between each unclassified item and all training data must be computed). Although nowadays systems are equipped with powerful processors, in cases of large datasets, this drawback renders the classification a time-consuming and in some cases a prohibitive procedure. Another weakness is the high storage requirements for maintaining the training data. Eager classifiers (e.g., decision tress, neural networks) can discard the training data after the construction of the classification model in order to save space. In contrast, the k-NN classifier must have all the training data always available. Moreover, the classification accuracy achieved by the classifier depends on the quality of the available training data. Noisy and mislabelled data, as well as outliers and overlaps between data regions of different classes may mislead the algorithm and affect the classification accuracy. The aforementioned weaknesses constitute an active research problem. The dissertation is motivated by these weaknesses and tries to remedy the problem. Therefore, it contributes novel algorithms and techniques that can effectively deal with the aforementioned weaknesses. In other words, it proposes algorithms and techniques for efficient and effective k-NN classification. The contributions are distinguished into three main categories: (i) new data reduction techniques that deal with all the weak points of the classifier and avoid the limitations and disadvantages of existing data reduction techniques, (ii) novel hybrid algorithms that combine different types of speed-up techniques and that can effectively reduce the computational cost of the classifier, and, (iii) improvements and experimentations for existing algorithms. The proposed algorithms, techniques and improvements are evaluated on several datasets and experimentally compared to state-of-the-art methods. The experimental measurements are validated by statistical tests of significance. The results illustrate that the proposed methods satisfy the goals for which they were developed and lead to improved classification, in terms of accuracy, preprocessing and computational cost.
Ο κατηγοριοποιητής κ εγγύτερων γειτόνων είναι ένας αποτελεσματικός αλγόριθμος κατηγοριοττοίησης. Ωστόσο, περιλαμβάνει μειονεκτήματα και αδυναμίες που τον καθιστούν ακατάλληλο σε συγκεκριμένα πεδία εφαρμογής ή/και σύνολα δεδομένων. Το πρώτο μειονέκτημα είναι το υψηλό κόστος κατηγοριοποίησης ως αποτέλεσμα του υπολογισμού των αποστάσεων μεταξύ κάθε αντικείμενου προς κατηγοριοποίηση και όλων των αντικειμένων που ανήκουν στο σύνολο εκπαίδευσης. Αν και τα σημερινά υπολογιστικά συστήματα είναι εφοδιασμένα με ισχυρούς επεξεργαστές, σε περιπτώσεις μεγάλων συνόλων δεδομένων, το συγκεκριμένο μειονέκτημα καθιστά την κατηγοριοποίηση μια ιδιαίτερα χρονοβόρα διαδικασία, η εκτέλεση της οποίας μπορεί να είναι απαγορευτική. Το δεύτερο μειονέκτημα αφορά τις μεγάλες απαιτήσεις σε αποθηκευτικό χώρο. Κατηγοριοποιητές που βασίζονται σε μοντέλα κατηγοριοποίησης (π.χ., δένδρα απόφασης, νευρωνικά δίκτυα) μπορούν μετά την κατασκευή του μοντέλου να διαγράψουν τα δεδομένα εκπαίδευσης ώστε να εξοικονομήσουν χώρο. Αντίθετα ο κατηγοριοποιητής κ εγγύτερων γειτόνων πρέπει να έχει πάντα όλα τα δεδομένα εκπαίδευσης διαθέσιμα. Έτσι δεν είναι δυνατή η εξοικονόμηση αποθηκευτικού χώρου. Τέλος, η ακρίβεια που επιτυγχάνει ο κατηγοριοποιητής κ εγγύτερων γειτόνων εξαρτάται από την ποιότητα των δεδομένων εκπαίδευσης. Δεδομένα με θόρυβο, αντικείμενα χωρίς ετικέτα κλάσης, ακραία σημεία και επικαλύψεις στις περιοχές διαφορετικών κλάσεων αποπροσανατολίζουν τον κατηγοριοποιητή με αποτέλεσμα τη μείωση της ακρίβειας. Τα μειονεκτήματα αυτά αποτελούν μια ενεργή περιοχή έρευνας. Η διδακτορική διατριβή έχει ως κίνητρο την αντιμετώπιση των συγκεκριμένων μειονεκτημάτων. Ως εκ τούτου, η διατριβή συνεισφέρει καινοτόμους αλγόριθμους που αντιμετωπίζουν με αποτελεσματικό τρόπο τα μειονεκτήματα αυτά Με άλλα λόγια, η διατριβή προτείνει αλγόριθμους και τεχνικές αποτελεσματικής κατηγοριοποίησης εγγύτερων γειτόνων. Η συνεισφορά έχει χωριστεί σε τρεις κατηγορίες: (ί) νέες τεχνικές μείωσης όγκου των δεδομένων εκπαίδευσης που αντιμετωπίζουν όλα τα μειονεκτήματα και δεν παρουσιάζουν τις αδυναμίες υπαρχουσών τεχνικών, (ϋ) υβριδικούς αλγορίθμους που συνδυάζουν διαφορετικού τύπουμεθόδους επιτάχυνσης με στόχο την μείωση του υπολογιστικού κόστους της κατηγοριοποίησης (iii) βελτιώσεις σε υπάρχουσες τεχνικές και πειραματικές μελέτες. Η απόδοση των προτεινόμενων αλγόριθμων, τεχνικών και βελτιώσεων ελέγχθηκε πειραματικά και συγκρίθηκε με γνωστές στη βιβλιογραφία μεθόδους χρησιμοποιώντας διάφορα σύνολα δεδομένων. Οι πειραματικές μετρήσεις επικυρώθηκαν με το μη παραμετρικό στατιστικό τεστ του Wilcoxon Τα αποτελέσματα υποδεικνύουν ότι οι αλγόριθμοι, οι τεχνικές και οι βελτιώσεις επιτυγχάνουν τον σκοπό για τον οποίο αναπτύχθηκαν και ότι οδηγούν σε αποτελεσματική κατηγοριοποίηση σε ότι αφορά την ακρίβεια, το κόστος κατηγοριοποίησης και το κόστος προ-επεξεργασίας.
Λέξεις Κλειδιά: k nearest neighbours
Classification
Clustering
Data reduction
Prototypes
Prototype selection
Prototype abstraction
Condensing
Editing (noise removal)
Cluster-based methods
Hybrid algorithms
Streaming data
Dynamic environments
Time-series
Data preprocessing
Computational cost
Accuracy
κ εγγύτεροι γείτονες
Κατηγοριοποίηση
Συσταδοποίηση
Μείωση όγκου δεδομένων
Αντιπρόσωποι
Επιλογή αντιπροσώπων
Δημιουργία αντιπροσώπων
Συμπύκνωση δεδομένων
Επεξεργασία με σκοπό τη μείωση θορύβου
Μέθοδοι βασισμένοι στη συσταδοποίηση
Υβριδικοί αλγόριθμοι
Ροές δεδομένων
Δυναμικά περιβάλλοντα
Χρονοσειρές
Προ-επεξεργασία δεδομένων
Υπολογιστικό κόστος
Ακρίβεια
Πληροφορίες: Η βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.
Διατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2014.
Περιλαμβάνει βιβλιογραφικές αναφορές (σ. 208-217).
010/2014
Εμφανίζεται στις Συλλογές:Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Αρχεία σε αυτό το Τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
OugiaroglouStephanos_Phd2014.pdf4.61 MBAdobe PDFΠροβολή/Ανοιγμα
OugiaroglouStephanos_license.pdfΔήλωση αποδέσμευσης (Ελεγχόμενη πρόσβαση)72.56 kBAdobe PDFΠροβολή/Ανοιγμα


Τα τεκμήρια στην ΨΗΦΙΔΑ προστατεύονται από πνευματικά δικαιώματα, εκτός αν αναφέρεται κάτι διαφορετικό.