Please use this identifier to cite or link to this item: http://dspace.lib.uom.gr/handle/2159/13729
Author: Παλτόγλου, Γεώργιος
Title: Algorithms and strategies for source selection and results merging (collection fusion algorithms) in distributed retrieval systems
Alternative Titles: Αλγόριθμοι και στρατηγικές επιλογής πηγών πληροφοριών και σύνθεσης αποτελεσμάτων (collection fusion algorithms) σε κατανεμημένα συστήματα αναζήτησης πληροφοριών
Date Issued: 2009
Department: Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Τμήμα Εφαρμοσμένης Πληροφορικής
Supervisor: Σατρατζέμη, Μαρία
Abstract: General purpose search engines, such as Google and Yahoo!, provide an easy mechanism for users to discover information on the Web. Despite their obvious advantages, they have a number of significant limitations, because they cannot reach or analyze a significant part of the information that is available. Distributed Information Retrieval systems, employing collection fusion algorithms, offer a solution to the above problem, by allowing users to submit queries to multiple information sources simultaneously through a single interface, offering a much wider coverage of the available information. This thesis deals with two of the main issues of designing and implementing efficient and effective Distributed Information Retrieval systems: source selection and results merging. The former deals with the ability of the system to select the most appropriate information sources to delegate the user query and the latter aims to produce the best possible final document list by merging to individual retrieved documents lists from the selected sources. The new algorithms that are presented in this thesis are designed to function effectively in settings where information sources provide no cooperation at all, thus making them applicable in the widest possible set of environments and domains. The source selection algorithm that is put forth provides a novel modeling of information sources as regions in a space created by the documents that they contain. It provides a full theoretical framework for addressing the source selection problem, while at the same time effectively captures real-world observations and widely accepted notions in Information Retrieval. Extensive experiments demonstrate that it is able to obtain a performance that is at least as good as other state-of-the-art approaches and more often better. The novel result merging algorithms that are presented arc based on the supposition that search engines return only ranked lists of documents, without relevance scores, a scenario which is standard practice in current retrieval systems. They are both able to address the lack of information very effectively, demonstrating significant performance gains over other state-of-the-art approaches. Additionally, the second algorithm unites the two general directions that the results merging problem has been approached in research, combining their advantages while minimizing their drawbacks.
Οι γενικές μηχανές αναζήτησης, όπως η Google και η Yahoo!, παρέχουν ένα εύκολο μηχανισμό για τους χρήστες τους για να βρίσκουν πληροφορίες στο Διαδίκτυο. Πέραν των φανερών πλεονεκτημάτων τους όμως, έχουν ένα σημαντικό αριθμό περιορισμών, επειδή δεν μπορούν να προσεγγίσουν και να αναλύσουν ένα σημαντικό μέρος της πληροφορίας που είναι διαθέσιμη. Τα Κατανεμημένα Συστήματα Αναζήτησης Πληροφοριών, κάνοντας χρήση αλγορίθμων συγχώνευσης συλλογών, παρέχουν μία λύση στο παραπάνω πρόβλημα, επιτρέποντας στους χρήστες τους να υποβάλλουν ερωτήματα συγχρόνως σε πολλαπλές πηγές πληροφόρησης, παρέχοντας μία πολύ μεγαλύτερη κάλυψη της διαθέσιμης πληροφορίας. Αυτή η διατριβή ασχολείται με δύο από τα βασικά προβλήματα που αφορούν στον σχεδιασμό και στην υλοποίηση αποτελεσματικών και αποδοτικών Κατανεμημένων Συστημάτων Αναζήτησης Πληροφοριών: την επιλογή πηγών και την σύνθεση αποτελεσμάτων. Το πρώτο πρόβλημα ασχολείται με την ικανότητα του συστήματος να επιλέγει τις πιο κατάλληλες πηγές πληροφόρησης για να μεταβιβάσει το ερώτημα του χρήστη και το δεύτερο αποβλέπει στο να παράξει την καλύτερη δυνατή τελική λίστα κειμένων μέσω της σύνθεσης των επιμέρους ανακτημένων κειμένων από τις επιλεγμένες πηγές. Οι νέοι αλγόριθμοι που παρουσιάζονται σε αυτή τη διατριβή έχουν σχεδιαστεί ώστε να λειτουργούν αποτελεσματικά σε περιβάλλοντα όπου οι πηγές δεν παρέχουν καμία συνεργασία, με αποτέλεσμα να είναι εφαρμόσιμη στο μεγαλύτερο δυνατό σύνολο περιβαλλόντων και συνθηκών. Ο αλγόριθμος επιλογής πηγών που προάγεται παρέχει έναν καινοτόμο τρόπο μοντελοποίησης των πηγών ως περιοχές σε ένα χώρο που παράγεται από τα κείμενα τα οποία περιέχουν. Διατυπώνει ένα πλήρες θεωρητικό πλαίσιο επίλυσης του προβλήματος της επιλογής πηγών, ενώ παράλληλα αποτελεσματικά συλλαμβάνει πειραματικές παρατηρήσεις και γενικά αποδεκτές αντιλήψεις του τομέα της Ανάκτησης Πληροφοριών. Εκτεταμένα πειράματα επιδεικνύουν ότι είναι ικανός να διασφαλίσει απόδοση που είναι τουλάχιστον τόσο καλή όσο άλλες μεθοδολογίες αιχμής και συχνότερα καλύτερη. Οι νέοι αλγόριθμοι σύνθεσης αποτελεσμάτων που παρουσιάζονται είναι βασισμένη στην υπόθεση ότι οι μηχανές αναζήτησης επιστρέφουν μονάχα κατατάξεις κειμένων, χωρίς σκορ σχετικότητας, ένα σενάριο που είναι σύνηθες πρακτική σε σύγχρονα συστήματα ανάκτησης πληροφοριών. Και οι δύο επιλύουν το πρόβλημα της έλλειψης πληροφόρησης πολύ αποτελεσματικά, επιδεικνύοντας σημαντικά οφέλη στην απόδοση συγκρίσει με άλλους αλγορίθμους αιχμής. Επιπροσθέτως, ο δεύτερος αλγόριθμος ενοποιεί τις δύο γενικές κατευθύνσεις από τις οποίες έχει προσεγγιστεί το πρόβλημα στην έρευνα, συνδυάζοντας τα πλεονεκτήματα τους, ενώ συγχρόνως ελαχιστοποιώντας τα μειονεκτήματα τους.
Keywords: Αναζήτηση πληροφοριών
Κατανεμημένη αναζήτηση πληροφοριών
Σύνθεση αποτελεσμάτων
Επιλογή πηγών
Ανάκτηση πληροφοριών
Κατανεμημένη ανάκτηση πληροφοριών
Information retrieval
Distributed information retrieval
Federated search
Collection fusion
Source selection
Results merging
Information: Η βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.
Διατριβή (Διδακτορική)- -Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2009
016/2009
Appears in Collections:Τμήμα Εφαρμοσμένης Πληροφορικής (Δ)

Files in This Item:
File Description SizeFormat 
Paltoglou_license.pdfΔήλωση αποδέσμευσης (Ελεγχόμενη πρόσβαση)271.17 kBAdobe PDFView/Open
Paltoglou_Phd2009.pdf1.97 MBAdobe PDFView/Open


Items in Psepheda are protected by copyright, with all rights reserved, unless otherwise indicated.