Please use this identifier to cite or link to this item: http://dspace.lib.uom.gr/handle/2159/14433
Author: Ζάμπογλου, Μάρκος
Title: Αυτόματη σημασιολογική ταξινόμηση εικονοσειρών με τη χρήση χωρικών και χρονικών περιγραφέων: θεωρητική ανάλυση και εφαρμογή σε πραγματικά δεδομένα
Alternative Titles: Automatic semantic video classification based on spatial and temporal descriptors: theorethical analysis and real-world application
Date Issued: 2011
Department: Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Τμήμα Εφαρμοσμένης Πληροφορικής. (ΕΠ)
Supervisor: Ευαγγελίδης, Γεώργιος
Abstract: Με την ευρεία εμπορική διάδοση των μέσων αποθήκευσης οπτικής και ακουστικής πληροφορίας όπως οι κάμερες και οι φωτογραφικές μηχανές, ο όγκος του πολυμεσικού υλικού που καταγράφεται και διακινείται καθημερινά έχει, τις τελευταίες δεκαετίες, γνωρίσει κατακόρυφη αύξηση. Ταυτόχρονα, η ύπαρξη ιστοσελίδων ανοιχτής δημοσίευσης, καθώς και εξειδικευμένων βάσεων πολυμεσικών δεδομένων, από τηλεοπτικά αρχεία μέχρι καταλόγους μουσείων, έχει ως συνέπεια η αναζήτηση πολυμεσικού υλικού να αποτελεί καθημερινή πρακτική για ένα μεγάλο αριθμό χρηστών. Οι σημερινές προσεγγίσεις αρχειοθέτησης στηρίζονται στην περιγραφή κάθε πολυμεσικού αντικειμένου με το χέρι. Το ερευνητικό πεδίο της Αυτόματης Σημασιολογικής Ταξινόμησης αποσκοπεί στην αυτόματη αναγνώριση υψηλού επιπέδου εννοιών στο περιεχόμενο των πολυμεσικών αντικειμένων, ώστε ο χρήστης να μπορεί να πλοηγείται σε μια συλλογή βάσει των πραγματικών του επιθυμιών. Στην εργασία αυτή εστιάζουμε στους περιγραφείς χαμηλού επιπέδου των οπτικών χαρακτηριστικών των εικονοσειρών, με σκοπό τη σημασιολογική ταξινόμηση. Στο κεφάλαιο 1 παρουσιάζεται η πρόκληση της σημασιολογικής ταξινόμησης, μια σύντομη ιστορική αναδρομή σε αντίστοιχα ερευνητικά εγχειρήματα και οι σύγχρονες τάσεις της έρευνας καθώς και οι στόχοι της διατριβής, ενώ στο κεφάλαιο 2 παρουσιάζονται οι βασικές έννοιες που θεωρούνται απαραίτητες για την κατανόηση της εργασίας. Στο κεφάλαιο 3 γίνεται μια εξαντλητική ανάλυση των διαθέσιμων περιγραφέων χρώματος, υφής, τοπικών χαρακτηριστικών, καθώς και κίνησης, ενώ αναφέρονται συνοπτικά οι κύριες τάσεις στους περιγραφείς σχήματος. Για κάθε περιγραφέα αναλύεται η φιλοσοφία του, τα ισχυρά του σημεία καθώς και οι αδυναμίες του, με έμφαση στα αποτελέσματα των δημοσιευμένων πειραματικών συγκρίσεων, όπου αυτά υπάρχουν. Ακολουθώντας την ανάλυση, στο κεφάλαιο 4 προτείνονται τρεις νέοι περιγραφείς των φαινομένων κίνησης, καθένας από τους οποίους αντιστοιχεί σε διαφορετικό τύπο πληροφορίας. Ο πρώτος αποσκοπεί στην περιγραφή της κίνησης κάμερας, εστιάζοντας στην καταγραφή των χρονικών σχέσεων μεταξύ των κινήσεων της κάμερας για κάθε καρέ. Οι χρονικές σχέσεις αυτές αφορούν το ενδεχόμενο συνύπαρξης δυο διαφορετικών κινήσεων την ίδια χρονική στιγμή, καθώς και στην διαδοχή διαφορετικών κινήσεων στο χρόνο. Ο δεύτερος αποτελεί μια απόπειρα βελτίωσης ενός κλασικού περιγραφέα της κίνησης προσκηνίου, μεταφέροντας τον από το πεδίο διανυσμάτων μπλοκ στην οπτική ροή, και μετατοπίζοντας την εστίαση του από την κίνηση των αντικειμένων του προσκηνίου στην αναπαράσταση της χωρικής κατανομής της κίνησης αυτής. Ο τρίτος περιγραφέας επιδιώκει την αναπαράσταση των σχέσεων μεταξύ γειτονικών διανυσμάτων κίνησης με τη μορφή Τοπικών Δυαδικών Προτύπων. Καθώς πρόκειται για έναν εντελώς νέο περιγραφέα της δυναμικής υφής μέσω των τοπικών χαρακτηριστικών κίνησης, μια σειρά διαφορετικών επιλογών παρουσιάζονται σχετικά με τη δομή του. Στο κεφάλαιο 5 παρουσιάζεται μια πρόταση για εφαρμογή του αλγορίθμου VACOR από τον κλάδο της Ανάλυσης Δεδομένων, για την αξιολόγηση περιγραφέων και την ανάλυση του ρόλου τους στην ταξινόμηση βάσει του σημασιολογικού περιεχομένου. Πειραματικά, επιχειρείται η καθοδηγούμενη από τα δεδομένα Ιεραρχική Ταξινόμηση ενός συνόλου εικονοσειρών που ανήκουν σε τρεις διαφορετικές σημασιολογικές κλάσεις. Αφού εξεταστεί ο διαχωρισμός μεταξύ των σημασιολογικών εννοιών που επιτεύχθηκε με τη χρήση των περιγραφέων μας, ακολουθεί αναλυτική εξέταση των κόμβων της ταξινόμησης και του ρόλου της κάθε μεταβλητής των περιγραφέων στο σχηματισμό τους. Η εφαρμογή αυτή αποτελεί ένα υπόδειγμα για την αξιολόγηση περιγραφέων με τη χρήση μεθόδων της Ανάλυσης Δεδομένων. Στο κεφάλαιο 6, επιχειρείται Σημασιολογική Ταξινόμηση με τη χρήση Μηχανών Διανυσμάτων Υποστήριξης. Σε μια βάση δεδομένων 1074 εικονοσειρών ορίζονται 16 σημασιολογικές κλάσεις, και ένας αριθμός διαφορετικών εκδοχών των πρωτότυπων περιγραφέων αξιολογούνται με κριτήριο τη συγκριτική τους ικανότητα ταξινόμησης άγνωστων εικονοσειρών. Στη συνέχεια οι περιγραφείς μας συγκρίνονται πειραματικά με κλασικούς περιγραφείς παρόμοιας στόχευσης, ώστε να αναδειχθεί ο βαθμός στον οποίο αποτελούν βελτίωση επί των δημοφιλέστερων προσεγγίσεων. Τέλος, υλοποιείται πειραματικά ένα ολοκληρωμένο σύστημα ταξινόμησης εικονοσειρών, βασισμένο στους αποτελεσματικότερους κλασικούς περιγραφείς, όπως αυτοί αναδείχθηκαν από την ανάλυση μας. Στα πλαίσια του συστήματος αυτού, εξετάζεται και αξιολογείται η συνεισφορά των περιγραφέων μας στην βελτίωση της ακρίβειας της ταξινόμησης, καθώς και η συνολική ικανότητα ταξινόμησης του τελικού συστήματος. Από την πειραματική διερεύνηση των ισχυρών τους σημείων, αλλά και των αδυναμιών τους, καταλήγουμε στο κεφάλαιο 7 σε μια σειρά συμπερασμάτων όσον αφορά το βαθμό επίτευξης των στόχων μας, τη σημασία των συνεισφορών μας, καθώς και τις μελλοντικές ερευνητικές κατευθύνσεις γύρω από αυτές.
During the last decades, digital multimedia recording devices have become increasingly cheap and widespread, leading to an abrupt worldwide accumulation of huge volumes of multimedia material. At the same time, the success of open publication web sites, as well as the significant increase in the number of specialized digital multimedia collections, such as TV archives or museum catalogues, has made the need for indexing such databases imperative. To this day, indexing methods fundamentally rely on the manual annotation of multimedia material. Research in Automatic Semantic Indexing aims at the creation of systems able to automatically detect the presence of high-level concepts within multimedia items, so as to reduce the cost of indexing and overcome the limitations of manual annotation. Our research focuses on low-level visual descriptors for video shots for the purpose Semantic Video Indexing. In chapter 1 we describe the aims and challenges of semantic indexing, briefly review past related work and contemporary research directions, and present the aims of this dissertation. Chapter 2 describes a number of fundamental concepts that are necessary for the reader to follow our work. In chapter 3, we exhaustively review and analyse previously proposed descriptors for color, texture, local features an motion, while the dominant approaches in shape description are also briefly touched upon. For each descriptor, we present the underlying rationale, as well as its respective strengths and weaknesses, placing emphasis on the results of published experimental comparisons, wherever these are available. Following that analysis, in chapter 4 we propose three novel motion descriptors, each corresponding to a different aspect of motion information. Our first descriptor focuses on camera behaviour, emphasizing on the temporal relationships between different camera operations. These relationships concern both the possibility of coexistence of multiple camera operations at the same time, and the potential transitions between different consecutive camera operations. The second descriptor is derived from an attempt to improve a classic foreground motion descriptor, by replacing sparse motion fields with dense optical flow as its base information. As a further improvement, we shift the descriptor's focus from the absolute local intensity of foreground motion, to its relative spatial distribution. Finally, our third descriptor aims at representing relationships between neighbouring motion vectors through Local Binary Patterns. As it constitutes an entirely novel descriptor for dynamic texture through local motion information, a series of possible variants are explored, with respect to its structure. In chapter 5 we present a proposal for the application of the VACOR algorithm, from the field of Data Analysis, for the evaluation of descriptors and the analysis of each individual variable's role in semantic content-based classification. In terms of experimental evaluations, we attempt data-driven Hierarchical Classification of a set of video shots from three semantic classes. Following an evaluation of the clustering of the three classes, an exhaustive analysis of the higher nodes of the classification tree is performed, where each descriptor variable is studied with respect to its role in the resulting classification. Besides being a first-level evaluation of our proposed descriptors, this application serves as a broader example for descriptor evaluation using Data Analysis methods. In chapter 6, Semantic Classification is attempted using Support Vector Machines. Sixteen semantic classes are defined in a database of 1074 video shots, and a number of variants of our proposed descriptors are evaluated with respect to their relative performance in indexing unknown video shots. Consecutively, our descriptors are experimentally compared to their state-of-the-art counterparts, in order to measure the relative improvement achieved. Finally, we implement an integrated system for semantic video classification, based on a large number of state-of-the-art descriptors, selected from the analysis of chapter 3. Within the context of this system, we evaluate the contribution of our novel descriptors in improving the overall system performance, as well as the overall classification success of the final system incorporating both the classic and novel descriptors. Based on the experimental results, and the observed strengths and weaknesses of our descriptors, in chapter 7 we reach a series of conclusions concerning the degree of success of our project, the significance of our contributions, and the potential future directions of our research.
Keywords: Ταξινόμηση εικονοσειρών
Οπτικοί περιγραφείς
Σημασιολογική ταξινόμηση
Semantic video indexing
Visual descriptors
Video concept detection
Content-based video retrieval
High-level feature extraction
Information: Η βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.
Διατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2011.
Περιλαμβάνει βιβλιογραφικές αναφορές (σ. 247-292).
027/2011
Appears in Collections:Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Files in This Item:
File Description SizeFormat 
Zampoglou_license.pdfΔήλωση αποδέσμευσης (Ελεγχόμενη πρόσβαση)260.96 kBAdobe PDFView/Open
Zampoglou_Phd2011.pdf13.94 MBAdobe PDFView/Open


Items in Psepheda are protected by copyright, with all rights reserved, unless otherwise indicated.