Please use this identifier to cite or link to this item:
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorΕυαγγελίδης, Γεώργιοςel
dc.contributor.authorΝίτσος, Ηλίαςel
dc.descriptionΠεριλαμβάνει βιβλιογραφικές αναφορές (σ.185-192).el
dc.descriptionΔιατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2005.el
dc.descriptionΗ βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.el
dc.description.abstractΑντικείμενο της διατριβής αποτελούν τα συστήματα ανάκτησης πληροφορίας από αδόμητο κείμενο και ιδιαίτερα οι δομές των ευρετηρίων που χρησιμοποιούνται από τα συστήματα αυτά: τα Αρχεία Υπογραφών (ΑΥ) και τα Αντεστραμμένα Αρχεία-Ευρετήρια (ΑΑΕ). Ένα μέρος της διατριβής επικεντρώνεται στη μελέτη της S-Index, μιας υβριδικής μεθόδου ευρετηριοποίησης που συνδυάζει στοιχεία από τις προαναφερθείσες δομές. Η S-Index υλοποιείται σε χαμηλό επίπεδο κι εξετάζονται οι επιδόσεις της, καθώς η μόνη γνωστή υλοποίηση που υπήρχε ήταν μια προσομοίωση με δυνατότητες ευρετηριοποίησης συλλογών κειμένου μικρού μεγέθους. Επίσης προτείνεται μια παραλλαγή της μεθόδου, η S-Index2, ώστε να ενισχυθεί η ικανότητα της αρχικής στη συμπίεση του παραγόμενου ευρετηρίου. Η περιορισμένη δυνατότητα εντοπισμού των όρων στα κείμενα μιας συλλογής, που χαρακτηρίζει την S-Index και την S-Index2, αντιμετωπίζεται στο Bitmap-tree, μια νέα μέθοδο ευρετηριοποίησης που βασίζεται στην S-Index κι έχει το πλεονέκτημα της ταχύτατης επεξεργασίας ειδικού τύπου ερωτημάτων. Στη συνέχεια το επίκεντρο της έρευνας μετατοπίζεται στους κώδικες συμπίεσης των ΑΑΕ, με τη βοήθεια των οποίων ελαχιστοποιούνται οι απαιτήσεις σε αποθηκευτικό χώρο κι επιταχύνονται οι διαδικασίες επεξεργασίας ερωτημάτων. Προτείνονται τρεις νέοι κώδικες συμπίεσης: ο uγ-Golomb, βελτιωμένη παραλλαγή του δημοφιλούς κώδικα Golomb για το τοπικό μοντέλο Bernoulli και οι g-binary και compact-binary, μη-παραμετροποιημένοι κώδικες με βελτιωμένες επιδόσεις σε βαθμό συμπίεσης και ταχύτητα αποκωδικοποίησης σε σχέση με όλους τους κώδικες της κατηγορίας τους.el
dc.description.abstractThe scope of the thesis is the Information Retrieval Systems which retrieve information from non-structured text, and, specifically, the index structures used by these systems: Signature Files (SF) and Inverted File Indexes (IF). A part of this thesis focuses on the study of S-Index, a hybrid indexing method that combines elements from both structures. S-Index is implemented at a low level and its efficiency is being studied, as the only existing implementation known was a simulation that enabled the indexing of small size corpora. A variation of this method is also presented, S-Index2, which enhances the original method's compression efficiency with regards to the index generated. The limited capability of finding specific terms in a text corpus-which characterises S-Index and S-Index2- is dealt with in Bitmap-tree, a new indexing method based on S-Index, that provides quick processing of special type queries. Next, the research focuses on IF content compression codes, which help minimize storage requirements and accelerate query processing. Three new compression codes are presented: uγ-Golomb, an improved version of the popular Golomb code for the local Bernoulli model and the g-binary and compact-binary codes, which fall under the non-parameterized code class and have improved compression ratios and decompression efficiency in comparison with all other codes in the same classen
dc.description.statementofresponsibilityΗλίας Νίτσοςel
dc.format.extent192 σ.el
dc.format.extent2499636 bytes-
dc.publisherΠανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημώνel
dc.subjectανάκτηση πληροφορίαςel
dc.subjectαδόμητο κείμενοel
dc.subjectαναζήτηση σε κείμενοel
dc.subjectδομές ευρετηρίωνel
dc.subjectκώδικες συμπίεσηςel
dc.subjectαντεστραμμένα αρχεία-ευρετήριαel
dc.subjectαρχεία υπογραφώνel
dc.subjectinformation retrievalen
dc.subjectfree text indexingen
dc.subjectfull text searchen
dc.subjectindex structuresen
dc.subjectcompression codesen
dc.subjectinverted filesen
dc.subjectsignature filesen
dc.titleΣυστήματα ανάκτησης πληροφορίας από αδόμητο κείμενο: ευρετήρια και κώδικες συμπίεσηςel
dc.title.alternativeFree text information retrieval systems: indexes and compression codesen
dc.typeElectronic Thesis or Dissertationen
dc.contributor.committeememberΜανωλόπουλος, Ιωάννηςel
dc.contributor.committeememberΜαργαρίτης, Κωνσταντίνοςel
dc.contributor.committeememberΠάγκαλος, Γεώργιοςel
dc.contributor.committeememberΠαπαρρίζος, Κωνσταντίνοςel
dc.contributor.committeememberΣατρατζέμη, Μαρίαel
dc.contributor.committeememberΣτεφανίδης, Γεώργιοςel
dc.contributor.departmentΠανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Τμήμα Εφαρμοσμένης Πληροφορικής. (ΕΠ)el
Appears in Collections:Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Files in This Item:
File Description SizeFormat 
nitsoslicense.pdfΔήλωση αποδέσμευσης (Ελεγχόμενη πρόσβαση)26.09 kBAdobe PDFView/Open
Nitsos.pdf2.43 MBAdobe PDFView/Open

Items in Psepheda are protected by copyright, with all rights reserved, unless otherwise indicated.