Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://dspace.lib.uom.gr/handle/2159/192
Συγγραφέας: Νίτσος, Ηλίας
Τίτλος: Συστήματα ανάκτησης πληροφορίας από αδόμητο κείμενο: ευρετήρια και κώδικες συμπίεσης
Αλλοι τίτλοι: Free text information retrieval systems: indexes and compression codes
Ημερομηνία Έκδοσης: Φεβ-2005
Τμήμα: Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Τμήμα Εφαρμοσμένης Πληροφορικής. (ΕΠ)
Επόπτης Καθηγητής: Ευαγγελίδης, Γεώργιος
Περίληψη: Αντικείμενο της διατριβής αποτελούν τα συστήματα ανάκτησης πληροφορίας από αδόμητο κείμενο και ιδιαίτερα οι δομές των ευρετηρίων που χρησιμοποιούνται από τα συστήματα αυτά: τα Αρχεία Υπογραφών (ΑΥ) και τα Αντεστραμμένα Αρχεία-Ευρετήρια (ΑΑΕ). Ένα μέρος της διατριβής επικεντρώνεται στη μελέτη της S-Index, μιας υβριδικής μεθόδου ευρετηριοποίησης που συνδυάζει στοιχεία από τις προαναφερθείσες δομές. Η S-Index υλοποιείται σε χαμηλό επίπεδο κι εξετάζονται οι επιδόσεις της, καθώς η μόνη γνωστή υλοποίηση που υπήρχε ήταν μια προσομοίωση με δυνατότητες ευρετηριοποίησης συλλογών κειμένου μικρού μεγέθους. Επίσης προτείνεται μια παραλλαγή της μεθόδου, η S-Index2, ώστε να ενισχυθεί η ικανότητα της αρχικής στη συμπίεση του παραγόμενου ευρετηρίου. Η περιορισμένη δυνατότητα εντοπισμού των όρων στα κείμενα μιας συλλογής, που χαρακτηρίζει την S-Index και την S-Index2, αντιμετωπίζεται στο Bitmap-tree, μια νέα μέθοδο ευρετηριοποίησης που βασίζεται στην S-Index κι έχει το πλεονέκτημα της ταχύτατης επεξεργασίας ειδικού τύπου ερωτημάτων. Στη συνέχεια το επίκεντρο της έρευνας μετατοπίζεται στους κώδικες συμπίεσης των ΑΑΕ, με τη βοήθεια των οποίων ελαχιστοποιούνται οι απαιτήσεις σε αποθηκευτικό χώρο κι επιταχύνονται οι διαδικασίες επεξεργασίας ερωτημάτων. Προτείνονται τρεις νέοι κώδικες συμπίεσης: ο uγ-Golomb, βελτιωμένη παραλλαγή του δημοφιλούς κώδικα Golomb για το τοπικό μοντέλο Bernoulli και οι g-binary και compact-binary, μη-παραμετροποιημένοι κώδικες με βελτιωμένες επιδόσεις σε βαθμό συμπίεσης και ταχύτητα αποκωδικοποίησης σε σχέση με όλους τους κώδικες της κατηγορίας τους.
The scope of the thesis is the Information Retrieval Systems which retrieve information from non-structured text, and, specifically, the index structures used by these systems: Signature Files (SF) and Inverted File Indexes (IF). A part of this thesis focuses on the study of S-Index, a hybrid indexing method that combines elements from both structures. S-Index is implemented at a low level and its efficiency is being studied, as the only existing implementation known was a simulation that enabled the indexing of small size corpora. A variation of this method is also presented, S-Index2, which enhances the original method's compression efficiency with regards to the index generated. The limited capability of finding specific terms in a text corpus-which characterises S-Index and S-Index2- is dealt with in Bitmap-tree, a new indexing method based on S-Index, that provides quick processing of special type queries. Next, the research focuses on IF content compression codes, which help minimize storage requirements and accelerate query processing. Three new compression codes are presented: uγ-Golomb, an improved version of the popular Golomb code for the local Bernoulli model and the g-binary and compact-binary codes, which fall under the non-parameterized code class and have improved compression ratios and decompression efficiency in comparison with all other codes in the same class
Λέξεις Κλειδιά: ανάκτηση πληροφορίας
αδόμητο κείμενο
αναζήτηση σε κείμενο
ευρετήρια
δομές ευρετηρίων
κώδικες συμπίεσης
αντεστραμμένα αρχεία-ευρετήρια
αρχεία υπογραφών
information retrieval
free text indexing
full text search
indexes
index structures
compression codes
inverted files
signature files
Πληροφορίες: Περιλαμβάνει βιβλιογραφικές αναφορές (σ.185-192).
Διατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2005.
Η βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.
018/2005
Εμφανίζεται στις Συλλογές:Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Αρχεία σε αυτό το Τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
nitsoslicense.pdfΔήλωση αποδέσμευσης (Ελεγχόμενη πρόσβαση)26.09 kBAdobe PDFΠροβολή/Ανοιγμα
Nitsos.pdf2.43 MBAdobe PDFΠροβολή/Ανοιγμα


Τα τεκμήρια στην ΨΗΦΙΔΑ προστατεύονται από πνευματικά δικαιώματα, εκτός αν αναφέρεται κάτι διαφορετικό.