Please use this identifier to cite or link to this item: http://dspace.lib.uom.gr/handle/2159/192
Author: Νίτσος, Ηλίας
Title: Συστήματα ανάκτησης πληροφορίας από αδόμητο κείμενο: ευρετήρια και κώδικες συμπίεσης
Alternative Titles: Free text information retrieval systems: indexes and compression codes
Date Issued: Feb-2005
Department: Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Τμήμα Εφαρμοσμένης Πληροφορικής. (ΕΠ)
Supervisor: Ευαγγελίδης, Γεώργιος
Abstract: Αντικείμενο της διατριβής αποτελούν τα συστήματα ανάκτησης πληροφορίας από αδόμητο κείμενο και ιδιαίτερα οι δομές των ευρετηρίων που χρησιμοποιούνται από τα συστήματα αυτά: τα Αρχεία Υπογραφών (ΑΥ) και τα Αντεστραμμένα Αρχεία-Ευρετήρια (ΑΑΕ). Ένα μέρος της διατριβής επικεντρώνεται στη μελέτη της S-Index, μιας υβριδικής μεθόδου ευρετηριοποίησης που συνδυάζει στοιχεία από τις προαναφερθείσες δομές. Η S-Index υλοποιείται σε χαμηλό επίπεδο κι εξετάζονται οι επιδόσεις της, καθώς η μόνη γνωστή υλοποίηση που υπήρχε ήταν μια προσομοίωση με δυνατότητες ευρετηριοποίησης συλλογών κειμένου μικρού μεγέθους. Επίσης προτείνεται μια παραλλαγή της μεθόδου, η S-Index2, ώστε να ενισχυθεί η ικανότητα της αρχικής στη συμπίεση του παραγόμενου ευρετηρίου. Η περιορισμένη δυνατότητα εντοπισμού των όρων στα κείμενα μιας συλλογής, που χαρακτηρίζει την S-Index και την S-Index2, αντιμετωπίζεται στο Bitmap-tree, μια νέα μέθοδο ευρετηριοποίησης που βασίζεται στην S-Index κι έχει το πλεονέκτημα της ταχύτατης επεξεργασίας ειδικού τύπου ερωτημάτων. Στη συνέχεια το επίκεντρο της έρευνας μετατοπίζεται στους κώδικες συμπίεσης των ΑΑΕ, με τη βοήθεια των οποίων ελαχιστοποιούνται οι απαιτήσεις σε αποθηκευτικό χώρο κι επιταχύνονται οι διαδικασίες επεξεργασίας ερωτημάτων. Προτείνονται τρεις νέοι κώδικες συμπίεσης: ο uγ-Golomb, βελτιωμένη παραλλαγή του δημοφιλούς κώδικα Golomb για το τοπικό μοντέλο Bernoulli και οι g-binary και compact-binary, μη-παραμετροποιημένοι κώδικες με βελτιωμένες επιδόσεις σε βαθμό συμπίεσης και ταχύτητα αποκωδικοποίησης σε σχέση με όλους τους κώδικες της κατηγορίας τους.
The scope of the thesis is the Information Retrieval Systems which retrieve information from non-structured text, and, specifically, the index structures used by these systems: Signature Files (SF) and Inverted File Indexes (IF). A part of this thesis focuses on the study of S-Index, a hybrid indexing method that combines elements from both structures. S-Index is implemented at a low level and its efficiency is being studied, as the only existing implementation known was a simulation that enabled the indexing of small size corpora. A variation of this method is also presented, S-Index2, which enhances the original method's compression efficiency with regards to the index generated. The limited capability of finding specific terms in a text corpus-which characterises S-Index and S-Index2- is dealt with in Bitmap-tree, a new indexing method based on S-Index, that provides quick processing of special type queries. Next, the research focuses on IF content compression codes, which help minimize storage requirements and accelerate query processing. Three new compression codes are presented: uγ-Golomb, an improved version of the popular Golomb code for the local Bernoulli model and the g-binary and compact-binary codes, which fall under the non-parameterized code class and have improved compression ratios and decompression efficiency in comparison with all other codes in the same class
Keywords: ανάκτηση πληροφορίας
αδόμητο κείμενο
αναζήτηση σε κείμενο
ευρετήρια
δομές ευρετηρίων
κώδικες συμπίεσης
αντεστραμμένα αρχεία-ευρετήρια
αρχεία υπογραφών
information retrieval
free text indexing
full text search
indexes
index structures
compression codes
inverted files
signature files
Information: Περιλαμβάνει βιβλιογραφικές αναφορές (σ.185-192).
Διατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2005.
Η βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.
018/2005
Appears in Collections:Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Files in This Item:
File Description SizeFormat 
nitsoslicense.pdfΔήλωση αποδέσμευσης (Ελεγχόμενη πρόσβαση)26.09 kBAdobe PDFView/Open
Nitsos.pdf2.43 MBAdobe PDFView/Open


Items in Psepheda are protected by copyright, with all rights reserved, unless otherwise indicated.