Ανάθεση ονόματος. και τύπους απαιτήσεων δομής

ΔΟΜΗ ΚΑΙ ΣΚΟΠΟΣ ΤΗΣ ΓΛΩΣΣΑΣ ΑΝΑΖΗΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ (ISL) Το ISL ως είδος τεχνητών γλωσσών Κάθε γλώσσα είναι ένα σύστημα σημείων που εκτελεί γνωστικό και επικοινωνιακό ρόλο στη διαδικασία της ανθρώπινης δραστηριότητας. Η γλώσσα μπορεί να είναι φυσική ή τεχνητή. Οι γλώσσες που χρησιμοποιούνται ως μέσο επικοινωνίας, ανταλλαγής σκέψεων και αμοιβαίας κατανόησης στην ανθρώπινη κοινωνία ονομάζονται φυσικές. Μια τεχνητή γλώσσα είναι οποιαδήποτε βοηθητική γλώσσα που δημιουργείται από ανθρώπους για οποιουσδήποτε στενούς σκοπούς· οι τεχνητές γλώσσες αναπτύσσονται με βάση τις φυσικές. Γιατί είναι απαραίτητο να δημιουργηθούν τεχνητές γλώσσες; Στη φυσική γλώσσα δεν υπάρχει σαφής σχέση μεταξύ των λέξεων και των σημασιών τους, η ίδια λέξη μπορεί να χρησιμοποιηθεί με διαφορετικές έννοιες. Επιπλέον, η σημασία των λέξεων στην καθημερινή γλώσσα συνήθως εξαρτάται όχι μόνο από την εξωτερική τους μορφή, αλλά και από τις συνθήκες υπό τις οποίες εκφράζονται, και μερικές φορές από υποκειμενικούς ψυχολογικούς παράγοντες. Από μια συνηθισμένη, φυσική γλώσσα που προέκυψε αυθόρμητα και είναι ένα σύστημα σημείων και γραμμάτων, οι τεχνητές γλώσσες διαφέρουν στο ότι είναι ένα σύστημα σημείων, όλες οι λειτουργίες με τις οποίες εκτελούνται σύμφωνα με επίσημους κανόνες. Κατά την ανάπτυξη τεχνητών γλωσσών, εξαλείφεται η ασάφεια των λέξεων της φυσικής γλώσσας, καθώς και αυτό που χαρακτηρίζει τη στάση μας απέναντι σε διάφορα αντικείμενα και φαινόμενα, τα συναισθήματά μας, τις βουλητικές παρορμήσεις. Σε μια τεχνητή γλώσσα, θα πρέπει να εκφράζονται μόνο αντικειμενικά χαρακτηριστικά των αντικειμένων και οι σχέσεις μεταξύ τους. Η γλώσσα ανάκτησης πληροφοριών (IPL) είναι μια εξειδικευμένη τεχνητή γλώσσα που έχει σχεδιαστεί για να περιγράφει (εκφράζει) τα κεντρικά θέματα ή αντικείμενα και τα τυπικά χαρακτηριστικά των εγγράφων, προκειμένου να βρεθούν στη συνέχεια τα απαραίτητα έγγραφα μεταξύ πολλών άλλων - ή/και να εκφράσει το περιεχόμενο των αιτημάτων πληροφοριών και αναζητήστε τα απαραίτητα έγγραφα. Τα τυπικά χαρακτηριστικά ενός εγγράφου είναι ο τύπος του, οι συγγραφείς, το όνομα του εκδότη, το έτος και ο τόπος του εκδότη κ.λπ. Καμία από τις φυσικές γλώσσες δεν μπορεί να χρησιμοποιηθεί ως ISL. Ο λόγος για αυτό είναι ότι η φυσική γλώσσα ως μέσο καταγραφής πληροφοριών έχει σημαντικά μειονεκτήματα. Αυτές οι ελλείψεις είναι ελλείψει μιας σαφούς αντιστοιχίας μεταξύ του περιεχομένου των διαφόρων κειμένων και των μέσων έκφρασης αυτού του περιεχομένου. Αυτή η ασυμφωνία μπορεί να ερμηνευθεί ως πλεονασμός και ανεπάρκεια φυσικής γλώσσας. Για παράδειγμα, στα ρωσικά το ποσό της απόλυσης φτάνει το 75-85%. Εάν στον προφορικό πλεονασμό ομιλίας χρησιμεύει ως προστασία από παρεμβολές ομιλίας, τότε στα μηχανοποιημένα και αυτοματοποιημένα συστήματα, ο πλεονασμός γλώσσας είναι αρνητικός παράγοντας, καθώς οδηγεί σε υπερβολική φόρτωση μνήμης και μειώνει την πληρότητα και την ακρίβεια της εξόδου πληροφοριών. Ο πλεονασμός εκδηλώνεται στα εξής: 1. Για τη μετάδοση του κύριου περιεχομένου του μηνύματος, μόνο ορισμένες λέξεις του κειμένου, που ονομάζονται λέξεις-κλειδιά, παίζουν ενεργό ρόλο και οι υπόλοιπες λέξεις μπορούν να απορριφθούν χωρίς να διακυβεύεται η κατανόηση. Γλώσσα λέξεις-κλειδιάεφαρμόζεται σε πραγματική ζωή κατά τη σύνταξη τηλεγραφικών μηνυμάτων που απαιτούν οικονομία γλωσσικών πόρων. 2. Συνώνυμα και παρόμοιες λέξεις είναι κοινές στη φυσική γλώσσα, η οποία είναι μια από τις κύριες πηγές ασάφειας στην έκφραση της ίδιας σημασίας. 3. Ο πλεονασμός της φυσικής γλώσσας εκδηλώνεται στην ικανότητα έκφρασης της ίδιας ιδέας με λέξεις-κλειδιά που δεν είναι συνώνυμες (παράφραση). Για παράδειγμα, «αφαίρεση υγρασίας» = «ξήρανση», «βελτίωση της παραγωγικότητας της εργασίας» = «μείωση του κόστους εργασίας». Η έλλειψη εκφράσεων στη φυσική γλώσσα, η οποία απαιτεί γνώση της κατάστασης στην οποία αναφέρεται αυτό ή εκείνο το μήνυμα, από την άποψη της ανάκτησης πληροφοριών, εκδηλώνεται στα εξής: α) πολυσημία μεμονωμένων λέξεων (ομωνία, πολυσημία). β) έλλειψη φυσικής γλώσσας. Ως έλλειψη νοείται η παράλειψη στο κείμενο του μηνύματος μεμονωμένων λέξεων που υπονοούνται. Οι ελλείψεις μπορούν να είναι: - λεξιλογικές - χρησιμοποιείται μια συντομευμένη έκδοση της φράσης, για παράδειγμα, "μηχανή" με την έννοια του "ηλεκτρονικού υπολογιστή". - λογικές-ψυχολογικές - λογικές σχέσεις και ψυχολογικές συσχετίσεις μεταξύ των λέξεων που χρησιμοποιούνται στο κείμενο και του γενικού γλωσσικού ταμείου δεν αποκαλύπτονται. Εάν η λεξιλογική ελλειπτικότητα εξαλείφεται πολύ εύκολα από το πλαίσιο, τότε για να αντισταθμίσει κανείς τις λογικο-ψυχολογικές ελλείψεις, πρέπει να γνωρίζει τη δεδομένη γλώσσα και να γνωρίζει το σύστημα εννοιών και ιδεών που σχετίζονται με την εν λόγω περιοχή. Ας, για παράδειγμα, υπάρχει ένα άρθρο αφιερωμένο σε ερωτήσεις γραμμικής κωδικοποίησης δομικών τύπων. Αυτό το άρθρο μπορεί να μην περιέχει τις λέξεις "αυτοματισμός", "ανάκτηση πληροφοριών", "χημεία", αλλά οι αρμόδιοι ειδικοί γνωρίζουν ότι αυτή η δημοσίευση σχετίζεται άμεσα με το πρόβλημα της αυτοματοποίησης της αναζήτησης χημικών πληροφοριών. Ακριβώς λόγω των λογικο-ψυχολογικών ελλείψεων, η ειδική βιβλιογραφία είναι διαθέσιμη μόνο σε ειδικούς που κατέχουν τις έννοιες και τις συσχετίσεις που αντικατοπτρίζονται σε αυτήν. Οι κύριες απαιτήσεις για το ILP είναι οι εξής: 1. Το ILP πρέπει να διαθέτει τα λεξιλογικά και γραμματικά μέσα που απαιτούνται για να εκφράσει με ακρίβεια το κεντρικό θέμα ή θέμα οποιουδήποτε κειμένου και το θέμα οποιουδήποτε αιτήματος πληροφοριών σε έναν δεδομένο κλάδο της επιστήμης, της τεχνολογίας ή της πρακτικής . 2. Αδιαμφισβήτηση - κάθε εγγραφή στο ILP πρέπει να έχει ένα και μόνο ένα νόημα. και αντιστρόφως - οποιοδήποτε νόημα πρέπει να λαμβάνει ομοιόμορφη αναπαράσταση στη γλώσσα ανάκτησης πληροφοριών (απουσία συνωνύμων, αντωνύμων, ομώνυμων και πολυσημικών λέξεων). 3. Ο ISP δεν πρέπει να περιέχει στοιχεία που συσχετίζουν κατά κάποιο τρόπο το μήνυμα με τον συντάκτη ή τον αποδέκτη αυτού του μηνύματος, π.χ. χαρακτηρίζουν κατά κάποιο τρόπο τη στάση μας στην περιγραφόμενη κατάσταση, τα συναισθήματά μας, τις βουλητικές παρορμήσεις κ.λπ. 4. Ρητή (σαφή) καθήλωση στο λεξικό ILP λογικών σχέσεων και ψυχολογικών συσχετισμών μεταξύ λέξεων ILP χρήσιμες για αναζήτηση (εξάλειψη λογικών και ψυχολογικών ελλείψεων). 5. Το ILP θα πρέπει να είναι βολικό για αλγοριθμική σύγκριση και αναγνώριση (πλήρης και μερική) εικόνων αναζήτησης εγγράφων με συνταγές αναζήτησης. 6. Δυνατότητα διόρθωσης και προσθήκης, δηλ. το άνοιγμα του IPJ. Με άλλα λόγια, το ILP θα πρέπει να είναι ευέλικτο, να έχει τη δυνατότητα να περιλαμβάνει νέες έννοιες χωρίς να σπάει ριζικά την αποδεκτή δομή. Ένα IPS χρησιμοποιεί συχνά όχι ένα, αλλά δύο διαφορετικά ISL, ένα για την ευρετηρίαση εγγράφων και ένα για την ευρετηρίαση ερωτημάτων πληροφοριών. Κατά την ανάπτυξη ενός ILP, είναι απαραίτητο να ληφθούν υπόψη: - οι ιδιαιτερότητες του κλάδου ή του θέματος για το οποίο δημιουργείται αυτή η γλώσσα. - χαρακτηριστικά κειμένων (έγγραφα) που αποτελούν τον πίνακα αναζήτησης. - τη φύση των πληροφοριών που πρέπει να ανταποκρίνονται στις οποίες δημιουργείται αυτό το πληροφοριακό σύστημα. Δομικά στοιχεία του ILP Επί του παρόντος, υπάρχει ένας μεγάλος αριθμός διαφορετικών γλωσσών ανάκτησης πληροφοριών, οι συνδυασμοί και οι τροποποιήσεις τους. Η συγκριτική μελέτη διαφόρων ILP έδειξε τη δυνατότητα ομοιόμορφης περιγραφής και ανάλυσής τους. Για να γίνει αυτό, είναι απαραίτητο να ξεχωρίσουμε τα κύρια δομικά στοιχεία του σχεδίου περιεχομένου ILP, τα οποία μπορούν να ονομαστούν λογικά-γλωσσικά καθολικά των γλωσσών ανάκτησης πληροφοριών. Τα καθολικά δομικά στοιχεία του ILP είναι: - το αλφάβητο. - λεξιλογικές μονάδες. - παραδειγματικές σχέσεις. - συνταγματικές σχέσεις. Το αλφάβητο είναι ένα σύστημα γραφικών σημείων που χρησιμοποιούνται για την καταγραφή (διόρθωση) των λέξεων και των εκφράσεων μιας γλώσσας. Το αλφάβητο ILP μπορεί να περιλαμβάνει γράμματα του αλφαβήτου οποιασδήποτε φυσικής γλώσσας (λατινικά, κυριλλικά, κ.λπ.), αραβικούς και ρωμαϊκούς αριθμούς, σημεία στίξης (τελεία, κόμμα, άνω και κάτω τελεία, εισαγωγικά, παύλα, παρενθέσεις και αγκύλες, απόστροφο), σημεία αριθμητικών πράξεων (συν, πλην, κάθετο, πρόσημο τοις εκατό), πρόσημα σχέσεων (μεγαλύτερο από, μικρότερο από, ίσο με), ειδικούς χαρακτήρες (βέλη, διπλή άνω και κάτω τελεία) κ.λπ. Μια λεξιλογική μονάδα (ευρετήριο, λέξη ILP) είναι η μικρότερη ακολουθία χαρακτήρων με νόημα που καθορίζεται κατά την κατασκευή ενός ILP. Μπορούμε να πούμε ότι οι λεξιλογικές μονάδες είναι μονάδες νοήματος στο IPL. Το σχέδιο περιεχομένου τους αντιστοιχεί στη σημασία μιας μεμονωμένης λέξης ή φράσης σε μια φυσική γλώσσα ή μιας επιστημονικής έννοιας. Το σύνολο των λεξιλογικών μονάδων με τις οποίες λειτουργεί το ILP σχηματίζει ένα λεξικό. Ανάλογα με τον τρόπο που προσδιορίζεται το λεξιλόγιο, το ILP διακρίνεται σε ελεγχόμενο και μη ελεγχόμενο λεξιλόγιο. Στο IPL με ελεγχόμενο λεξιλόγιο λαμβάνονται υπόψη όλες οι λεξιλογικές μονάδες σε ειδικό λεξικό. Τέτοια λεξικά είναι, για παράδειγμα, πίνακες ταξινόμησης UDC και LBC, ρουμπρικτές, λεξικά περιγραφών. Το IPL με ανεξέλεγκτο λεξιλόγιο χρησιμοποιεί φυσική γλώσσα, η χρήση της οποίας περιορίζεται (επισημοποιείται) με την εισαγωγή ειδικών κανόνων. Σε αντίθεση με τη φυσική γλώσσα, όχι μόνο μια λέξη, αλλά και μια φράση, καθώς και μια φράση, μια πρόταση μπορεί να λειτουργήσει ως λεξιλογική μονάδα του ILP. Σύμφωνα με αυτό, υπάρχουν επίπεδα ολοκλήρωσης. Το πρώτο επίπεδο ολοκλήρωσης περιλαμβάνει το ILP, οι λεξιλογικές μονάδες του οποίου είναι κυρίως μεμονωμένες λέξεις και σύνολες φράσεις, για παράδειγμα: σκυρόδεμα, άνθρακας (περιγραφικό ILP, ταξινομήσεις πτυχών). Το δεύτερο επίπεδο ολοκλήρωσης του λεξιλογίου χαρακτηρίζεται από εκείνα τα ILP, λεξιλογικές μονάδες στις οποίες δεν υπάρχουν μόνο λέξεις και φράσεις, αλλά και φράσεις που έχουν πολύπλοκη συντακτική δομή (UDC, LBC, MKI). Οι λεξιλογικές μονάδες ILP μπορούν να κατασκευαστούν με δύο τρόπους: 1) χρησιμοποιώντας ειδικούς κώδικες ως λεξικές μονάδες. 2) η χρήση λέξεων και φράσεων φυσικής γλώσσας ως λεξιλογικές μονάδες. Σύμφωνα με αυτό, διακρίνονται λεξικό και κωδικοποιημένα IPL. Τα ISL λεξικών είναι γλώσσες στις οποίες το επίπεδο περιεχομένου συμπίπτει με το επίπεδο έκφρασης φυσικής γλώσσας. Επομένως, οι λεξιλογικές μονάδες αυτού του τύπου ISL δεν απαιτούν μετάφραση σε φυσική γλώσσα. Τα κωδικοποιημένα ISL είναι γλώσσες στις οποίες το σχέδιο έκφρασης δεν ταιριάζει με το σχέδιο περιεχομένου. Σε αυτές τις περιπτώσεις δημιουργούνται ειδικά δίγλωσσα λεξικά που επιτρέπουν τη μετάφραση κωδικών IPL σε φυσική γλώσσα και αντίστροφα. Ανεξάρτητα από τη μέθοδο ελέγχου λεξιλογίου, το επίπεδο ενσωμάτωσής του και τη μέθοδο κατασκευής λεξιλογικών ενοτήτων, το λεξιλόγιο κάθε ILP βασίζεται σε όρους, αφού είναι οι κύριοι φορείς επιστημονικών και τεχνικών πληροφοριών στα κείμενα των εγγράφων και των ερωτημάτων. Οι όροι υποδιαιρούνται ανάλογα με το εύρος. Ταυτόχρονα, σε κάθε περιοχή διακρίνονται ειδικοί (βασικοί) όροι που είναι χαρακτηριστικοί μόνο για αυτήν την περιοχή. γενικοί επιστημονικοί όροι που αντικατοπτρίζουν μεθόδους, διαδικασίες, μέσα γνώσης οποιουδήποτε θεματικού τομέα· Όροι συναφών γνωστικών πεδίων, που δηλώνουν τις έννοιες που είναι απαραίτητες για μια δεδομένη θεματική περιοχή από συναφείς κλάδους της επιστήμης και της τεχνολογίας. Όλα αυτά τα σύνολα όρων είναι αλληλένδετα και δεν έχουν σαφή όρια. Να εξασφαλιστεί η λεξιλογική ασάφεια του ISL από το λεξιλόγιοη συνωνυμία, η ομονομία και η πολυσημία πρέπει να εξαλειφθούν εντελώς. Τα συνώνυμα είναι λέξεις που διαφέρουν στον ήχο και την ορθογραφία αλλά έχουν την ίδια βασική σημασία και χρήση. Λεξικά συνώνυμα - λέξεις και φράσεις που λειτουργούν ως εναλλάξιμα στοιχεία της δήλωσης: τοξίνες = δηλητήρια, ex-libris - σημάδι βιβλίου, επιλεκτική διάδοση πληροφοριών = IRI. Λογικά συνώνυμα προκύπτουν στον λογικό ορισμό των εννοιών: Μνημοσύνη - η θεά της μνήμης στην ελληνική μυθολογία, Boolean algebra = άλγεβρα της λογικής. Τα συντακτικά συνώνυμα αντικατοπτρίζουν την ικανότητα μιας φυσικής γλώσσας να εκφράζει την ίδια ιδέα με στροφές του λόγου, δηλ. παράφραση: υποβρύχια κολύμβηση = καταδύσεις, τρίμηνο σχέδιο = τριμηνιαίο σχέδιο. Τα ομώνυμα είναι λέξεις που έχουν τον ίδιο ήχο και την ίδια ορθογραφία, αλλά έχουν διαφορετική σημασία, για παράδειγμα: τράπεζες ( χρηματοπιστωτικά ιδρύματα) και τράπεζες (είδος πιάτων), ένας λύγκας (θηλαστικό του γένους των γατών) και ένας λύγκας (είδος κίνησης προς τα εμπρός αλόγου). Πολυσημία, ή ασάφεια, είναι η παρουσία πολλών διαφορετικών αλλά συναφών σημασιών για την ίδια λέξη. Έτσι, η λέξη διεύθυνση μπορεί να σημαίνει: α) κατοικία ή τοποθεσία. β) προσδιορισμό του τόπου κατοικίας ή τοποθεσίας του παραλήπτη στο ταχυδρομικό αντικείμενο· γ) έναν κωδικό που καθορίζει τη θέση των πληροφοριών σε έναν υπολογιστή. Στο ILP, η ονοματικότητα υπερισχύει της λεκτικότητας, δηλ. Τα ουσιαστικά χρησιμοποιούνται συχνότερα από τα ρήματα. Τα πιο τυπικά μοντέλα σχηματισμού όρων είναι τα ακόλουθα: 1) επίθετο + ουσιαστικό (κατάλογοι βιβλιοθήκης). 2) ουσιαστικό + ουσιαστικό (απόκτηση συλλογών, αυτοματοποίηση βιβλιοθηκών). 3) επίθετο + επίθετο + ουσιαστικό (ολοκληρωτικά πληροφοριακά συστήματα). Μεταξύ των λεξιλογικών μονάδων οποιουδήποτε ILP, καθώς και μεταξύ των λέξεων μιας φυσικής γλώσσας, υπάρχουν ορισμένες σχέσεις που οφείλονται στην παρουσία λογικών συνδέσεων μεταξύ αντικειμένων και φαινομένων που υποδηλώνονται με αυτές τις λέξεις. Τέτοιες σχέσεις αντικατοπτρίζουν τη σημασιολογική σύνδεση μεταξύ των εννοιών, δείχνουν αντικειμενικές υποκειμενικές-λογικές σχέσεις μεταξύ των φαινομένων του εξωτερικού κόσμου. Είναι μη κειμενικού χαρακτήρα και επομένως δεν εξαρτώνται από την κατάσταση για την οποία χρησιμοποιούνται οι λέξεις. Οι σχέσεις αυτές ονομάζονται παραδειγματικές (βασικές, αναλυτικές, εμμενείς) σχέσεις. Λόγω των υποκειμένων-λογικών συνδέσεων, οι λέξεις με βάση το ένα ή το άλλο σημασιολογικό χαρακτηριστικό συνδυάζονται σε λεξικο-σημασιολογικές ομάδες, οι οποίες ονομάζονται παραδείγματα. Για παράδειγμα, το παράδειγμα κωνοφόρα δέντραπεριλαμβάνει έλατο + κέδρο + thuja. μια και η ίδια λεξιλογική ενότητα μπορεί να συμπεριληφθεί σε διαφορετικές σημασιολογικές σειρές, στις οποίες αντιπαρατίθεται σύμφωνα με διαφορετικά σημασιολογικά χαρακτηριστικά. Για παράδειγμα: Ποτάμι - ρέμα - ποτάμι (μέγεθος ταμιευτήρα) Ποτάμι - στενό - λίμνη - θάλασσα (μορφή του ταμιευτήρα) Ποτάμι - κανάλι - λιμνούλα - δεξαμενή (η φύση της προέλευσης της δεξαμενής). Η ανάγκη αναφοράς μιας συγκεκριμένης λεξιλογικής ενότητας σε διαφορετικές σημασιολογικές σειρές (παραδείγματα) προκύπτει κατά την κατασκευή σχημάτων ταξινόμησης εννοιών.Είναι σύνηθες να γίνεται διάκριση μεταξύ ισχυρών και αδύναμων παραδειγματικών σχέσεων, συνδέοντας αυτές τις έννοιες με το ρόλο που παίζουν αυτές οι σχέσεις για την υλοποίηση της πληροφορίας. ανάκτηση.σύνθεση της σχέσης ταυτότητας και σχέσεις ιεραρχίας.Οι σχέσεις ταυτότητας (σύμπτωση, επάρκεια) ως είδος ισχυρών παραδειγματικών σχέσεων εκφράζονται με τη χρήση συνωνύμων. Οι σχέσεις ιεραρχίας ως ένα είδος ισχυρών παραδειγματικών σχέσεων αντιστοιχούν σε σχέσεις υποταγής Εντός ιεραρχικών σχέσεων, σχέσεις του τύπου «γένος-είδος» και «ολόκληρο μέρος». Δεν υπάρχει ενότητα ως προς την απόδοση της σύνδεσης του τύπου «ολόκληρου» σε ισχυρές παραδειγματικές σχέσεις. " είναι ένα από τα πιο σημαντικά είδησυνδέσεις μεταξύ των εννοιών. Ταυτόχρονα, μια γενική (δευτερεύουσα) έννοια είναι μια έννοια που εκφράζει τα ουσιαστικά χαρακτηριστικά μιας κατηγορίας αντικειμένων που είναι είδη αυτού του γένους. Αντίστοιχα, μια έννοια του είδους είναι μια έννοια που εμφανίζει τα βασικά χαρακτηριστικά μιας κατηγορίας αντικειμένων που είναι ένα είδος κάποιου είδους. Για παράδειγμα, οι έννοιες ενός αλόγου, μιας αγελάδας, ενός προβάτου είναι έννοιες ειδών που εκφράζουν τα ουσιαστικά χαρακτηριστικά ξεχωριστών, ποιοτικά ιδιαίτερων, αλλά αλληλένδετων μορφών ζώων που περιλαμβάνονται σε μια γενική έννοια ενός οικόσιτου ζώου. Μια και η ίδια έννοια μπορεί να είναι (με εξαίρεση μεμονωμένες έννοιες και εξαιρετικά γενικές κατηγορίες όπως ύλη, κίνηση, χρόνος κ.λπ.) ταυτόχρονα ειδική και γενική, ανάλογα με την έννοια με την οποία εξετάζεται σε σχέση. Για παράδειγμα, η έννοια του σχολιασμού είναι γενική σε σχέση με την έννοια των δευτερευόντων εγγράφων και γενική σε σχέση με την έννοια του σχολιασμού αναφοράς. Οι γενικές σχέσεις, που παρουσιάζονται ρητά στο ILP, σας επιτρέπουν να προσαρμόσετε σημαντικά τη στρατηγική αναζήτησης για ερωτήματα ανάλογα με τα αποτελέσματα της έκδοσης. Σε περίπτωση «μηδενικής» ή ανεπαρκούς έκδοσης πληροφοριών κατόπιν αιτήματος, η συμμετοχή γενικών όρων υψηλότερου επιπέδου θα επεκτείνει την περιοχή αναζήτησης. Βασική προϋπόθεση για τη δημιουργία ιεραρχικών σχέσεων τύπου «γένος-είδος» είναι η τήρηση της απαίτησης: «Ό,τι μπορεί να ειπωθεί για το γένος, μπορεί να ειπωθεί για το είδος». Η σχέση "ολόκληρου μέρους" αντανακλά το πραγματικό γεγονός της εμφάνισης ενός αντικειμένου (έννοιας) σε ένα άλλο. Ταυτόχρονα, η υποτακτική έννοια συσχετίζεται με δευτερεύουσες ως αποτέλεσμα της αποσύνθεσης του συνόλου σε μέρη. Οι έννοιες που εκφράζουν μέρη ενός συνόλου δεν έχουν σχέση με την υποταγή, η οποία είναι χαρακτηριστικό γνώρισμα των εννοιών του είδους. Η προσαρμογή της στρατηγικής αναζήτησης μπορεί επίσης να πραγματοποιηθεί λαμβάνοντας υπόψη τις παραδειγματικές σχέσεις του τύπου "ολόκληρου μέρους", καθώς είναι πιθανό ότι για τον καταναλωτή πληροφοριών που ενδιαφέρεται για το σύστημα, τον μηχανισμό, τη διαδικασία στο σύνολό του, μπορεί να αποδείχτηκε ότι είναι ΧΡΗΣΙΜΕΣ ΠΛΗΡΟΦΟΡΙΕΣκαι για αυτούς συστατικά μέρη, στοιχεία, λειτουργίες. Οι αδύναμες (συνειρμικές) παραδειγματικές σχέσεις λαμβάνουν υπόψη τις λογικές σχέσεις της τομής των εννοιών και των διαφόρων ψυχολογικών συσχετισμών. Οι ψυχολογικές συσχετίσεις προκύπτουν στο μυαλό ενός ατόμου όταν η ιδέα ενός αντικειμένου (διαδικασίας ή φαινομένου) τον κάνει να έχει μια ιδέα για αντικείμενα (διαδικασίες, φαινόμενα) που σχετίζονται με το πρώτο σύμφωνα με κάποιο ουσιαστικό χαρακτηριστικό. Τέτοιες σχέσεις χαρακτηρίζουν πάντα την κοινή συμμετοχή των αντίστοιχων αντικειμένων σε μια κατάσταση τυπική για μια δεδομένη περιοχή ή τη συμμετοχή αντικειμένων σε παρόμοιες καταστάσεις. Συνηθίζεται να ταξινομούνται οι σχέσεις «αιτίας-αποτελέσματος», «γειτνίασης», «αντίθεσης» ως αδύναμες παραδειγματικές σχέσεις. Σχέσεις όπως «αιτία-αποτελέσματα» χαρακτηρίζουν μια κατάσταση στην οποία ένα φαινόμενο, μια ενέργεια (αιτία) προκαλεί, καθορίζει, αλλάζει ή συνεπάγεται ένα άλλο φαινόμενο - συνέπεια. Για παράδειγμα ένα ατύχημα-τραυματισμός, παραβίαση τεχνολογίας-γάμος. Η σχέση της «γειτνίασης» είναι μια αντανάκλαση στο μυαλό της συνειρμικής σύνδεσης μεταξύ αντικειμένων ή φαινομένων που γίνονται αντιληπτά σε κοντινή απόσταση μεταξύ τους στον χώρο και τον χρόνο: βάλτο-τύρφη, ηλεκτρικό ρεύμα-τάση. Η αναλογία αντίθεσης (pritooppositnosti) είναι το αποτέλεσμα της αντίθεσης αντικειμένων, διεργασιών, όχι σύμφωνα με το κριτήριο της κοινότητάς τους, αλλά σύμφωνα με το κριτήριο της διαφοράς. Εκφράζεται στο λεξιλόγιο του ΗΛΠ με τη βοήθεια αντωνύμων που είναι αντίθετα στη σημασία των λέξεων: εξαγωγή-εισαγωγή. Η γνώση και η χρήση παραδειγματικών σχέσεων είναι απαραίτητη για σωστή επιλογή και την ακριβή χρήση όλων των λέξεων που απαιτούνται για τη μετάδοση ενός μηνύματος, συμπεριλαμβανομένης της διατύπωσης μιας εικόνας αναζήτησης ενός εγγράφου ή μιας συνταγής αναζήτησης. Επομένως, στο ILP, οι πιο σημαντικές παραδειγματικές σχέσεις μεταξύ των λέξεων που αποτελούν το λεξιλόγιο αυτού του ILP θα πρέπει να προσδιορίζονται και να εκφράζονται ρητά. Ένας άλλος τύπος σχέσης που συνδέει τις λέξεις οποιασδήποτε γλώσσας, έχει επίσης γραμμικές σχέσεις, που καθιερώνονται απευθείας όταν συνδυάζονται λέξεις και φράσεις σε φράσεις (προτάσεις). Τέτοιες σχέσεις ονομάζονται συντακτικές (συντακτικές, κειμενικές, γραμματικές). Οι συνταγματικές σχέσεις είναι σημασιολογικές σχέσεις μεταξύ λεξιλογικών ενοτήτων που περιλαμβάνονται στο κείμενο στο ILP, δηλ. σχέσεις που δημιουργούνται απευθείας με το συνδυασμό λέξεων σε φράσεις και φράσεις. Μια ομάδα λεξιλογικών ενοτήτων που συνδέονται με συνταγματικές σχέσεις σχηματίζουν ένα σύνταγμα (φράση, πρόταση στο ILP). Εάν η εικόνα αναζήτησης θεωρείται ως κείμενο σε μια γλώσσα ανάκτησης πληροφοριών, τότε πρέπει να επιλυθούν δύο εργασίες προκειμένου να διορθωθούν οι συνταγματικές σχέσεις σε αυτό το κείμενο. Πρώτον, είναι απαραίτητο να παρέχουμε μέσα για την επισήμανση μεμονωμένων θραυσμάτων (προτάσεων, φράσεων) που αντιστοιχούν σε μια πλήρη δήλωση. Δεύτερον, απαιτείται να υποδεικνύεται ο σημασιολογικός ρόλος των λεξιλογικών ενοτήτων που περιλαμβάνονται στα επιλεγμένα τμήματα. Κατά συνέπεια, τα γραμματικά μέσα του IPL μπορούν να χωριστούν σε δύο τύπους: - κατακερματισμός. - σημασιολογικό. Ο κατακερματισμός μπορεί να πραγματοποιηθεί με: Διαιρώντας την εικόνα αναζήτησης σε διάφορα μέρη (προτάσεις) που εισάγονται αυτόνομα. Δείκτες σύνδεσης. Ο δείκτης συνδέσμου (αγκύλες) είναι ένα σύμβολο (γράμμα, αριθμός, σημείο στίξης) που εκχωρείται σε όλες τις λεξικές μονάδες που περιλαμβάνονται στο συγκεκριμένο τμήμα. Ξεχωριστές λεξιλογικές μονάδες μπορούν να συμπεριληφθούν σε πολλά τμήματα και επομένως έχουν αρκετούς δείκτες συνδέσμων. Ο κατακερματισμός δεν πραγματοποιείται. Αισθηματικές διακριτικές σχέσεις μεταξύ λεξιλογικών μονάδων ενός τμήματος ή - στην περίπτωση μιας μη κατακερματισμένης εικόνας αναζήτησης - όλες οι λέξεις του κειμένου στο ILP μπορούν να διορθωθούν με τους εξής τρόπους: Γραμματική "Bag" - μια απλή απαρίθμηση λεξικών ενοτήτων. Σε αυτήν την περίπτωση, το ίδιο το γεγονός της παρουσίας αυτού του συνόλου λέξεων υποδηλώνει την ύπαρξη μιας κειμενικής σύνδεσης μεταξύ τους και αυτή η σύνδεση μπορεί να προσδιοριστεί λίγο-πολύ ξεκάθαρα με βάση τη σημασία των αναφερόμενων λεξικών ενοτήτων. Οι γλώσσες με γραμματική "τσάντα" συχνά ταξινομούνται ως γλώσσες χωρίς γραμματική. Για παράδειγμα, όταν μια άλλη έννοια προστίθεται σε μια ή την άλλη έννοια, εξηγώντας την πρώτη και υποδεικνύοντας ότι αυτή η έννοια είναι ένα σωστό όνομα, ορισμός ή τύπος δραστηριότητας. Έτσι, εάν το έγγραφο αφορά τον εφευρέτη και την εφεύρεσή του, τότε οι έννοιες που σχετίζονται με τον εφευρέτη και τη συσκευή μπορούν να επισημανθούν ανεξάρτητα για να αποφευχθεί η σύγχυση κατά την αναζήτηση - "ντίζελ" (εφευρέτης) και "ντίζελ" (κινητήρας). Γραμματική θέσης, η οποία συνίσταται στην καθιέρωση μιας αυστηρής σειράς λεξιλογικών ενοτήτων που ανήκουν σε διάφορες κατηγορίες ανάκτησης πληροφοριών. Ένα χαρακτηριστικό παράδειγμα γραμματικής θέσης είναι οι τύποι όψεων που δίνονται στις ταξινομήσεις όψεων. Δείκτες ρόλων, οι οποίοι είναι βοηθητικά ευρετήρια που εκχωρούνται σε λεξικές μονάδες της εικόνας αναζήτησης για να διευκρινιστεί η σημασία τους. Τις περισσότερες φορές, αυτές οι λίστες είναι λίστες λογικών κατηγοριών με τις οποίες λειτουργεί ένα συγκεκριμένο πεδίο γνώσης. Οι δείκτες βοηθούν στη μείωση του εύρους της έννοιας που υποδηλώνεται από τη λεξιλογική ενότητα. Χρησιμοποιούνται δύο τύποι δεικτών ρόλων: Στατιστικοί δείκτες, οι οποίοι είναι αριθμητικά «βαρίδια» (συντελεστές «βάρους») που αποδίδονται σε λεξικά στοιχεία προκειμένου να υποδεικνύουν τη σχετική σημασία τους για την περιγραφή της σημασίας του μηνύματος. Οι λειτουργικοί δείκτες, που δίνονται από τη λίστα, εξηγούν τη γραμματική λειτουργία του ενός ή του άλλου ευρετηρίου. Μοιάζουν με αυτό: 1- αρχικό προϊόν 2- τελικό προϊόν .................................. 6-επιρροή παράγοντας ................................... 10- μέθοδος ή μέσα Αναζήτηση μοτίβων που αποτελούνται από τις ίδιες λεξικές μονάδες, αλλά που έχουν διαφορετικούς ρόλους προσδιορίζονται στην αναζήτηση ως διαφορετικοί. Για παράδειγμα, «κατάλογοι βιβλίων» και «κατάλογοι σε μορφή βιβλίων». Οι συνταγματικές (κειμενικές, γραμματικές, συντακτικές) σχέσεις είναι σημασιολογικές σχέσεις μεταξύ λεξικών ενοτήτων. 6

2 ώρες

Δημιουργία της λεξιλογικής-σημασιολογικής βάσης του ILP.

Μέρος 3. Οργανωτική σχεδίαση λεξιλογίου

Σκοπός: Να εξοικειωθούν με τους τύπους οργανωτικού σχεδιασμού του λεξιλογίου.

Εργασιακά καθήκοντα: 1. Κατακτήστε τους κανόνες συστηματοποίησης των λεξιλογικών ενοτήτων.

2. Αποκτήστε τις δεξιότητες παρουσίασης του λεξιλογίου στη φόρμα

Ιεραρχική ταξινόμηση, ταξινομητές,

Θησαυροί ανάκτησης πληροφοριών.

Παροχή μέσων:μια σειρά από κάρτες με λεξιλογικές μονάδες. γλώσσες ανάκτησης πληροφοριών (UDK, LBC, GRNTI).

Ασκηση 1: Αναπαριστά οργανωτικά το λεξιλόγιο με τη μορφή ιεραρχικής ταξινόμησης.

Απαιτήσεις αναφοράς:Παρουσιάστε τα αποτελέσματα της εργασίας ως τμήμα μιας ιεραρχικής ταξινόμησης:

  1. Γλώσσες ανάκτησης πληροφοριών

11. Γλώσσες ανάκτησης πληροφοριών ταξινόμησης

  1. Τα συστήματα ταξινόμησης είναι ιεραρχικά
    1. Συνδυαστικά συστήματα ταξινόμησης

11.111 Βιβλιοθήκη-βιβλιογραφική ταξινόμηση

11.112 Καθολική δεκαδική ταξινόμηση

  1. Τα συστήματα ταξινόμησης είναι αριθμητικά

11.121 Διεθνής ταξινόμηση εφευρέσεων

………………………….

Τεχνολογία εργασίας:

  1. Με βάση το σχήμα ταξινόμησης των εννοιών που δημιουργήθηκε κατά τη διάρκεια της εργαστηριακής εργασίας 5, αντιστοιχίστε ψηφιακούς χαρακτηρισμούς στις λεξιλογικές μονάδες που παρουσιάζονται σε αυτό. Κατά την κατασκευή ενός ευρετηρίου, είναι απαραίτητο να αντικατοπτρίζεται στη δομή του η υποταγή των εννοιών, δηλ. παρέχουν στη δομή του ευρετηρίου μια οπτική έκφραση παραδειγματικών σχέσεων.
  2. Ταξινόμηση ευρετηριασμένων λεξικών στοιχείων.
  3. Τακτοποιήστε τα αποτελέσματα με τη μορφή ενός τμήματος μιας ιεραρχικής ταξινόμησης.

Εργασία 2 : Σύνταξη ενός αλφαβητικού ευρετηρίου θεμάτων σε μια ιεραρχική ταξινόμηση.

Απαιτήσεις αναφοράς:Παρουσιάστε τα αποτελέσματα της εργασίας ως τμήμα ενός ευρετηρίου αλφαβητικού θέματος σε μια ιεραρχική ταξινόμηση:

Αλφαβητικό ευρετήριο

LBC δείτε Βιβλιοθήκη και Βιβλιογραφική Ταξινόμηση

Βιβλιοθήκη και βιβλιογραφική ταξινόμηση 11.111

IPL, δείτε Γλώσσες ανάκτησης πληροφοριών

Διεθνής ταξινόμηση εφευρέσεων

ICI βλέπε Διεθνής Ταξινόμηση Εφευρέσεων 11.121

Συστήματα ταξινόμησης ιεραρχικά 11.1

Συνδυασμένα συστήματα ταξινόμησης 11.11

Αριθμητικά συστήματα ταξινόμησης 11.12

UDC βλέπε Καθολική δεκαδική ταξινόμηση

Καθολική δεκαδική ταξινόμηση 11.112

Γλώσσες ανάκτησης πληροφοριών 1

Ταξινόμηση ανάκτησης πληροφοριών γλωσσών 11

Τεχνολογία εργασίας:

  1. Με βάση το τμήμα της ιεραρχικής ταξινόμησης που δημιουργήθηκε κατά τη διάρκεια της εργασίας 1, δημιουργήστε επικεφαλίδες θεμάτων για το αλφαβητικό και το ευρετήριο θεμάτων.
  2. Αντικατοπτρίστε στο AAP χρησιμοποιώντας έναν σύνδεσμο Δείτε συνώνυμα που επισημαίνονται στο Εργαστήριο 5.
  3. Τακτοποιήστε τις κατασκευασμένες θεματικές επικεφαλίδες σε αλφαβητική σειρά.
  4. Τακτοποιήστε τα αποτελέσματα με τη μορφή ενός τμήματος της APU για μια ιεραρχική ταξινόμηση.

Εργασία 3: Αναπαριστά οργανωτικά το λεξιλόγιο με τη μορφή ταξινομητή.

Απαιτήσεις αναφοράς:Παρουσιάστε τα αποτελέσματα της εργασίας ως τμήμα του ταξινομητή:

Τμήμα ενός ταξινομητή που δημιουργήθηκε με βάση τη μέθοδο της τακτικής κωδικοποίησης

00001 Βιβλιοθήκη και βιβλιογραφική ταξινόμηση

00002 Διεθνής ταξινόμηση εφευρέσεων

00003 Ιεραρχικά συστήματα ταξινόμησης

00004 Συνδυασμένα συστήματα ταξινόμησης

00005 Αριθμητικά συστήματα ταξινόμησης

00006 Καθολική δεκαδική ταξινόμηση

00007 Γλώσσες ανάκτησης πληροφοριών ταξινόμησης

………………………

Τμήμα ενός ταξινομητή που δημιουργήθηκε με βάση μια μέθοδο διαδοχικής κωδικοποίησης

11000 Γλώσσες ανάκτησης πληροφοριών ταξινόμησης

11200 Ιεραρχικά συστήματα ταξινόμησης

11210 Συνδυασμένα συστήματα ταξινόμησης

11211 Βιβλιοθήκη και βιβλιογραφική ταξινόμηση

11212 Καθολική δεκαδική ταξινόμηση

11220 Αριθμητικά συστήματα ταξινόμησης

11221 Διεθνής ταξινόμηση εφευρέσεων

…………………..

Τεχνολογία εργασίας:

  1. Με βάση το σχήμα ταξινόμησης των εννοιών που δημιουργήθηκε κατά τη διάρκεια της εργαστηριακής εργασίας 5, αντιστοιχίστε ψηφιακούς χαρακτηρισμούς στις λεξιλογικές μονάδες που παρουσιάζονται σε αυτό.
  2. Κατά την κατασκευή του κώδικα, είναι απαραίτητο να χρησιμοποιηθούν διάφορες μέθοδοι κωδικοποίησης: τακτική, σειριακή-τακτική, σειριακή και παράλληλη.
  3. Σειρά κωδικοποιημένων λεξικών μονάδων.
  4. Τακτοποιήστε τα αποτελέσματα με τη μορφή θραυσμάτων του ταξινομητή.

Εργασία 4 : Οργανωτική παρουσίαση λεξιλογίου με τη μορφή θησαυρού ανάκτησης πληροφοριών.

Απαιτήσεις αναφοράς:Παρουσιάστε τα αποτελέσματα της εργασίας ως τμήμα του λεξικοσημασιολογικού ευρετηρίου του θησαυρού ανάκτησης πληροφοριών:

Τύπος εισαγωγής περιγραφέαΠαράδειγμα:

Περιγραφέας ΣΥΣΤΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ

συνώνυμα ΣΥΝΔΥΑΣΜΕΝΟΣ

ανώτερες έννοιες σε συστήματα ταξινόμησης ιεραρχικά

δευτερεύουσες έννοιες n Βιβλιοθήκη και βιβλιογραφική

συνειρμική ταξινόμηση εννοιών

Καθολικό δεκαδικό

Ταξινόμηση

Α Συστήματα ταξινόμησης

απαρίθμηση

Τεχνολογία εργασίας:

  1. Χρησιμοποιώντας τον τύπο μιας καταχώρησης περιγραφικού, παραγγείλετε τις λεξικές μονάδες που προσδιορίζονται και παρουσιάζονται στο σχήμα ταξινόμησης των εννοιών (βλ. εργαστηριακή εργασία 5).
  2. Παρουσιάστε τις εγγραφές περιγραφής και απογραφής με αλφαβητική σειρά.
  3. Τακτοποιήστε τα αποτελέσματα με τη μορφή ενός τμήματος του λεξικοσημασιολογικού ευρετηρίου του θησαυρού ανάκτησης πληροφοριών.

Ερωτήσεις ελέγχου

  1. Να αναφέρετε τους κύριους τρόπους οργάνωσης του λεξιλογίου ILP.
  2. Ποιες είναι οι ομοιότητες και οι διαφορές μεταξύ συστημάτων ταξινόμησης, ταξινομητών, θησαυρών ανάκτησης πληροφοριών;
  1. Gendina N.I. Γλωσσική υποστήριξη αυτοματοποιημένων συστημάτων βιβλιοθηκών. - Alma-Ata: Gylym, 1991. - S. 64-77.
  2. Gendina N.I., Skipor I.L. Γλωσσικά θεμέλια της πληροφορικής: Υπερκειμενικό εκπαιδευτικό ορολογικό λεξικό-βιβλίο αναφοράς. - Kemerovo: Kuzbassvuzizdat, 2002.-124 p.

Η ανάγκη δημιουργίας συστήματος ανάκτησης πληροφοριών (IPS) ρυθμιστικού και νομικού υλικού είναι αναμφισβήτητη. Η συνάφεια της μηχανικής αναζήτησης νομικών πληροφοριών έχει αυξηθεί ιδιαίτερα σε σχέση με την ανάπτυξη στη χώρα μας εργασιών για τη δημιουργία αυτοματοποιημένων συστημάτων ελέγχου (ACS) και σημαντικό μέρος της πληροφοριακής υποστήριξης είναι νομοθετικό υλικό. Η δημιουργία νομοθεσίας IS, εκτός από άλλα πλεονεκτήματα που έχουν ήδη αναφερθεί στη σοβιετική νομική βιβλιογραφία, θα μειώσει το κόστος σχεδιασμού βιομηχανικών, τομεακών και εδαφικών αυτοματοποιημένων συστημάτων ελέγχου και θα δημιουργήσει επίσης προϋποθέσεις, τουλάχιστον στον τομέα της κωδικοποίησης και μηχανική επεξεργασία νομικών πληροφοριών, για την επακόλουθη σύνδεση τους σε ένα ενιαίο εθνικό σύστημα.

Η διαδικασία αναζήτησης πληροφοριών μπορεί να χωριστεί υπό όρους σε δύο στάδια. Η πρώτη αρχίζει με αίτημα και τελειώνει με την έκδοση της διεύθυνσης του εγγράφου, για παράδειγμα, τον αριθμό του άρθρου και το όνομα της πράξης στην οποία βρίσκεται. Εδώ λύνονται τα προβλήματα νομικής σημασιολογίας. Το δεύτερο στάδιο ξεκινά με την παραλαβή της διεύθυνσης του απαιτούμενου παραστατικού και ολοκληρώνεται με την έκδοσή του. Τα προβλήματα που λύθηκαν σε αυτή την περίπτωση δεν έχουν καμία σχέση με τη σημασιολογία και σχετίζονται εξ ολοκλήρου με τον τομέα της τεχνολογίας.

Τόσο στην ειδική όσο και στη νομική βιβλιογραφία, τα συστήματα που παρέχουν κάθε στάδιο ξεχωριστά, και τα συστήματα που παρέχουν και τα δύο στάδια μαζί, ονομάζονται συχνά το ίδιο - ανάκτηση πληροφοριών. Εν τω μεταξύ, ο ίδιος όρος χρησιμοποιείται για να αναφέρεται σε διαφορετικά συστήματα.

Το πρώτο στάδιο καθορίζεται από τη μέθοδο στην οποία βασίζεται η οργάνωση της ανάκτησης πληροφοριών ή, με άλλα λόγια, από τη γλώσσα με την οποία ευρετηριάζονται τα έγγραφα. το κριτήριο για την αντιστοίχιση του εγγράφου που βρέθηκε στο επιθυμητό και τον αλγόριθμο αναζήτησης διεύθυνσης - το πρόγραμμα για την εφαρμογή του κριτηρίου αντιστοίχισης. Αυτό είναι ένα σύστημα ανάκτησης πληροφοριών σε αφηρημένη μορφή, το οποίο νοείται ως ένα σύνολο γλώσσας ανάκτησης πληροφοριών (ILL) με κανόνες για τη μετάφραση από φυσική γλώσσα σε IL και αντίστροφα, καθώς και ένα κριτήριο σημασιολογικής αντιστοιχίας μεταξύ εικόνων αναζήτησης νομικών πράξεις και οδηγίες αναζήτησης.

Επί του παρόντος, για τους σκοπούς της ανάκτησης πληροφοριών, χρησιμοποιούνται τέσσερις κύριοι τύποι γλώσσας ανάκτησης πληροφοριών: βιβλιοθηκές και βιβλιογραφικές ταξινομήσεις, αλφαβητική ταξινόμηση και ταξινόμηση θέματος, περιγραφικές γλώσσες και μικτές γλώσσες που συνδυάζουν θετικές πλευρές IEL ταξινόμησης και περιγραφής. Η ανάγκη για αναζήτηση πολλών πτυχών για νομικές πράξεις, δηλαδή αναζήτηση οποιουδήποτε συνδυασμού χαρακτηριστικών που δεν είναι προκαθορισμένος, απαιτεί τη χρήση της μεθόδου ευρετηρίασης συντεταγμένων και του περιγραφέα ILP που βασίζεται σε αυτήν.

Αλλά για να είναι αποτελεσματική η μέθοδος ευρετηρίασης συντεταγμένων, είναι απαραίτητο να εξασφαλιστεί ομοιόμορφη ευρετηρίαση εγγράφων και ερωτημάτων πληροφοριών που είναι πανομοιότυπα σε περιεχόμενο, δηλαδή είναι απαραίτητο να εξαλειφθούν τέτοια φυσικά γλωσσικά φαινόμενα όπως η συνωνυμία, η ομωνυμία και η πολυσημία. Αυτό μπορεί να γίνει μόνο με τον έλεγχο της χρήσης λέξεων και φράσεων φυσικής γλώσσας που λειτουργούν ως βασικές. Τέτοιος έλεγχος εξασφαλίζεται με τη σύνταξη ειδικού νομικού λεξικού-βιβλίου αναφοράς. Η ιδιαιτερότητά του έγκειται στο γεγονός ότι οι λέξεις-κλειδιά σε αυτό ομαδοποιούνται σε τάξεις ισοδυναμίας, δηλαδή ομάδες που δηλώνουν έννοιες που έχουν σχεδόν εκατό νόημα. Από κάθε τέτοια ομάδα επιλέγεται μία λέξη ή φράση (κανονιστική λέξη), η οποία υποδηλώνει ολόκληρη την ομάδα. Μια τέτοια κανονιστική λέξη συνήθως ονομάζεται περιγραφέας και το λεξικό των περιγραφών ονομάζεται θησαυρός (από τον ελληνικό θησαυρό - θησαυροφυλάκιο, ντουλάπι, θησαυρός).

Η δομή του θησαυρού συνδυάζει χαρακτηριστικά σχημάτων ταξινόμησης και καταλόγους θεματικών επικεφαλίδων. Οι όροι του θα πρέπει να είναι ταξινομημένοι με αλφαβητική σειρά, αντανακλώντας ταυτόχρονα την ιεραρχική σχέση μεταξύ των όρων υποδεικνύοντας ευρύτερους - γενικούς και στενότερους - συγκεκριμένους, συνώνυμους ή συναφείς όρους.

Η ανάγκη για ένα τέτοιο λεξικό προκύπτει λόγω της παρουσίας πολλών λέξεων με ανακριβώς καθορισμένο εύρος σημασίας, το οποίο επηρεάζει αρνητικά τα αποτελέσματα της ευρετηρίασης και της αναζήτησης. Ο νομικός θησαυρός θα πρέπει να ενοποιηθεί σε ολόκληρη τη χώρα ή τουλάχιστον στη δημοκρατία των συνδικάτων, έτσι ώστε να υπάρχει η δυνατότητα μεταγενέστερης σύνδεσης του IPS του κλάδου στον τομέα του δικαίου που αναπτύσσεται επί του παρόντος. Ο κανονικοποιημένος κατάλογος όρων δεν έχει το καθήκον της τυποποίησης της ορολογίας, θα πρέπει να εξαλείφει μόνο τις ορολογικές διαφορές που συναντώνται στην πράξη σε σχέση με την ανάπτυξη και τη λειτουργία ενός συστήματος ανάκτησης πληροφοριών.

Η ακρίβεια και η βεβαιότητα της νομικής γλώσσας, η απουσία (με μάλλον σπάνιες εξαιρέσεις) αόριστων, διφορούμενων και πολυσηματικών όρων διευκολύνουν σε μεγάλο βαθμό το έργο της δημιουργίας ενός νομικού θησαυρού. Το τελευταίο, ωστόσο, δεν σημαίνει ότι δεν χρειάζεται να εισαχθούν τεχνητά μέσα στη γλώσσα ανάκτησης νομικών πληροφοριών για να αντικατοπτρίζουν τους δεσμούς μεταξύ των εννοιών.

Οι μεταγλωττιστές θησαυρών αντιμετωπίζουν ένα δύσκολο έργο - να επιλέξουν όρους, να τους ομαδοποιήσουν σε κλάσεις και να συνδέσουν σύνθετα ιεραρχικά δέντρα, έτσι ώστε ο θησαυρός να παρέχει ικανοποιητική πληρότητα και ακρίβεια της αναζήτησης.

Η συλλογή των όρων πραγματοποιείται με λεπτομερή δωρεάν ευρετηρίαση του πίνακα αναζήτησης (στην περίπτωσή μας, νομικές πράξεις που αποτελούν τον ένα ή τον άλλο θεσμό δικαίου).

Για να διευκολυνθεί η επιλογή των περιγραφικών παραμέτρων, ο πίνακας με τη μορφή λίστας λέξεων-κλειδιών χωρίζεται σε θεματικά πεδία. Στον πίνακα για την προνομιακή παροχή συντάξεων, για παράδειγμα, διακρίνονται οι ακόλουθες ομάδες ή σημασιολογικές τάξεις: 1) βιομηχανία, 2) παραγωγή, 3) επιχείρηση. 4) εργαστήριο, 5) τοποθεσία, 6) επάγγελμα, 7) αποτύπωμα εγγράφων.

Η γλώσσα περιγραφής αποτελείται από κανονιστικές λέξεις-κλειδιά, στις οποίες η συνωνυμία, η ομωνυμία, η πολυσημία εξαλείφονται τεχνητά με τη βοήθεια κατάλληλων αναφορών και σημείων. Η ανάγκη για τέτοιους τεχνητούς μετασχηματισμούς οφείλεται στο γεγονός ότι τα παραπάνω χαρακτηριστικά της φυσικής γλώσσας, αν και μειωμένα, αλλά δεν εξαλείφονται εντελώς στη νομική γλώσσα, δεν επιτρέπουν την επίλυση του προβλήματος της σαφούς περιγραφής του σημασιολογικού περιεχομένου των εγγράφων, ειδικά σε οδηγίες αναζήτησης.

Η βάση για την κατασκευή περιγραφικών γλωσσών ανάκτησης πληροφοριών

Η κατασκευή περιγραφικών ενημερωτικών γλωσσών poyaskovy βασίζεται στην αρχή της ευρετηρίασης συντεταγμένων, η οποία προϋποθέτει ότι το κύριο σημασιολογικό περιεχόμενο ενός εγγράφου μπορεί να εκφραστεί με μια λίστα λέξεων-κλειδιών. Οι λέξεις κλειδιά περιλαμβάνουν τις λεγόμενες λέξεις πλήρους αξίας - ουσιαστικά, επίθετα, ρήματα, επιρρήματα, αριθμούς, αντωνυμίες. Οι λέξεις κλειδιά δεν μπορούν να είναι προθέσεις, σύνδεσμοι, συνδετικοί σύνδεσμοι, σωματίδια.

Τα κύρια στοιχεία του DPIP είναι:

♦ λεξικό λεξιλογικών ενοτήτων.

♦ Κανόνες εφαρμογής ISL (γραμματική) που ορίζουν τη διαδικασία μετάφρασης κειμένων εγγράφων και ερωτημάτων από φυσική γλώσσα σε ISL:

♦ κανόνες για την κατασκευή IIP.

Τα λεξικά των λεξικών ενοτήτων χωρίζονται σε δύο ομάδες:

♦ τα κύρια λεξικά λεξικά που απαρτίζουν το λεξιλόγιο ΟΝΟΜΑ.

♦ Μορφολογικά λεξικά που παρέχουν μορφολογική ανάλυση και κανονικοποίηση λέξεων.

Λέξεις-κλειδιά, φράσεις και περιγραφείς χρησιμοποιούνται ως λεξιλογικές μονάδες των κύριων λεξικών.

Περιγραφέας - μια έννοια που υποδηλώνει μια ομάδα λέξεων-κλειδιών που είναι ισοδύναμες ή κοντινές σε νόημα. Ο περιγραφέας είναι το όνομα της τάξης συνωνύμων. Κώδικας, λέξη ή φράση μπορούν να χρησιμοποιηθούν ως περιγραφείς.

Η ανάπτυξη μιας γλώσσας περιγραφής περιορίζεται στην πραγματικότητα στην ανάπτυξη ενός θησαυρού ανάκτησης πληροφοριών (IPT).

Ο θησαυρός (από την ελληνική "αποθήκη", "θησαυροφυλάκιο") με τη στενή έννοια είναι ένα ειδικό λεξικό-βιβλίο αναφοράς που παραθέτει λέξεις κλειδιά - περιγραφές μιας συγκεκριμένης θεματικής περιοχής, υποδεικνύονται τα συνώνυμά τους, τρόποι εξάλειψης συνωνυμίας, ομωνυμίας, πολυσημίας είναι καθιερωμένους, γενικούς και συνειρμικούς συνδέσμους περιγραφών.

Οι πιο σημαντικές παραδειγματικές σχέσεις του IPT είναι:

♦ υποταγή;

♦ γένος-είδος.

♦ μέρος-ολόκληρο;

♦ αιτίου-αποτελέσματος.

♦ λειτουργική ομοιότητα.

Η γενικευμένη δομή του IPT περιλαμβάνει τουλάχιστον τρία στοιχεία: ένα μέρος λεξιλογίου, έναν σημασιολογικό χάρτη και έναν οδηγό χρήσης.

Ας δώσουμε μια σειρά από ορισμούς.

Το μέρος του λεξιλογίου είναι μια αλφαβητική λίστα περιγραφικών σημείων με τα λήμματά τους στο λεξικό.

Σημασιολογικός χάρτης - ένα σύστημα θεματικών τάξεων περιγραφών, που παρουσιάζονται με τη μορφή γραφικού διαγράμματος ή πίνακα.

Οι Οδηγίες IPT περιέχουν τους κανόνες για τη μετάφραση λέξεων-κλειδιών και φράσεων σε ILP, τους κανόνες για τον λεξικογραφικό έλεγχο και την επεξεργασία των AML και PLO, καθώς και τους κανόνες για τη διατήρηση του IPT.

Η διαφορά μεταξύ των θησαυρών ανάκτησης πληροφοριών και των καταλόγων ανάκτησης πληροφοριών που βασίζονται σε θεματικές ιεραρχικές επικεφαλίδες είναι ότι στους θησαυρούς, εκτός από το σχήμα ταξινόμησης, υπάρχουν και οι ίδιοι οι λέξεις-κλειδιά και οι περιγραφείς, ενωμένοι με τα ονόματα κλάσεων, επικεφαλίδων κ.λπ. Στους καταλόγους, υπάρχουν μόνο προσδιορισμοί (ονόματα) κλάσεων.

Η κύρια ιδέα των θησαυρών ανάκτησης πληροφοριών είναι η αύξηση της αποτελεσματικότητας της ευρετηρίασης εγγράφων εντός της περιγραφικής προσέγγισης. Με άλλα λόγια, στα συστήματα που βασίζονται σε PIT, το POD αντιπροσωπεύεται από ένα σύνολο περιγραφέων. Ωστόσο, στη διαδικασία ευρετηρίασης εγγράφων, λαμβάνονται υπόψη οι σημασιολογικές σχέσεις μεταξύ των περιγραφικών παραγόντων, γεγονός που, μακροπρόθεσμα, παρέχει πιο επαρκές περιεχόμενο εγγράφων AML και αυξάνει την αποτελεσματικότητα της αναζήτησης εγγράφων.

Τύποι IEP

Οι κύριοι τύποι ILP είναι: ταξινόμηση, θέμα, περιγραφέας.

Γλώσσα ταξινόμησης

Η γλώσσα ταξινόμησης προορίζεται για την ευρετηρίαση εγγράφων και ερωτημάτων πληροφοριών μέσω των εννοιών και των κωδικών οποιουδήποτε συστήματος ταξινόμησης (LBC, UDC, SRSTI, Classifiers, κ.λπ.).

Οι γλώσσες ταξινόμησης βασίζονται σε μια συστηματική ταξινόμηση εννοιών, δηλ. ταξινόμηση που αντανακλά τις σημασιολογικές σχέσεις μεταξύ των εννοιών. Οι γλώσσες ταξινόμησης έχουν σχεδιαστεί κυρίως για να επισημοποιούν τις λογικές συνδέσεις των λέξεων φυσικής γλώσσας.

Το RSL προτείνει να χρησιμοποιηθεί στην ΕΚ ως γλώσσα ταξινόμησης ένα επισημοποιημένο και εκσυγχρονισμένο LBC σε μηχανικά αναγνώσιμη μορφή με εισαγωγή θέματος σε αυτό.

Η επιλογή του LBC ως ILP EC, σύμφωνα με τους ειδικούς του RSL, οφείλεται στους ακόλουθους παράγοντες: Το LBC χρησιμοποιείται στους παραδοσιακούς καταλόγους των περισσότερων βιβλιοθηκών της χώρας. Στην ταξινόμηση του θέματος δεν υπάρχει σύστημα σημασιολογικών δεσμών μεταξύ των τμημάτων επαρκώς ανεπτυγμένο για την ΕΚ. Η χρήση του LBC καθιστά δυνατή τη διατήρηση στην ΕΚ όλων των πλεονεκτημάτων των παραδοσιακών καταλόγων, που έχουν απορροφήσει την πολυετή πείρα των βιβλιοθηκονόμων και των βιβλιογράφων, και την εισαγωγή νέων δυνατοτήτων για ανάκτηση πληροφοριών που παρέχονται από την τεχνολογία των υπολογιστών.

Και, σύμφωνα με τον Cand. πεδ. επιστήμες, επικεφαλής. Τμήμα NB RGTU L.I. Το Aleshina, το GRNTI είναι πιο κατάλληλο για αυτοματοποιημένες τεχνολογίες από το LBC.

Όλα τα IEL του τύπου ταξινόμησης χαρακτηρίζονται από έναν αριθμό ιδιοτήτων που προκαλούν χαμηλή απόδοση και καθιστούν δύσκολη τη χρήση τους στην ανάκτηση πληροφοριών, ειδικά με τη χρήση τεχνικά μέσα. Αυτές οι ιδιότητες περιλαμβάνουν: προκαταρκτικό συντονισμό (σύνδεση) λέξεων και φράσεων σε μια ρουμπρίκα, δυσκολία ενημέρωσης και συμπλήρωσης, την πρακτική αδυναμία μιας πλήρους και λεπτομερούς ανάπτυξης ενός σχήματος ταξινόμησης και την πολυπλοκότητα της χρήσης του κατά την ευρετηρίαση.

Όλα αυτά οδήγησαν στη δημιουργία γλωσσών λεκτικού τύπου. Αυτές οι γλώσσες χρησιμοποιούν λέξεις για να αναπαραστήσουν τις λεξιλογικές τους μονάδες και να εκφράσουν τη φυσική γλώσσα στην ορθογραφική τους μορφή. Οι λεκτικές γλώσσες περιλαμβάνουν θεματικές και περιγραφικές γλώσσες.

Γλώσσα θεμάτων

Η θεματική γλώσσα προορίζεται για την ευρετηρίαση εγγράφων και ερωτημάτων πληροφοριών μέσω θεματικών επικεφαλίδων. Η γλώσσα του θέματος βασίζεται σε μια αλφαβητική λίστα θεματικών επικεφαλίδων, η οποία είναι μια σύντομη διατύπωση του θέματος σε φυσική γλώσσα. Όντας ένα τεχνητό σύστημα, η θεματική γλώσσα πρέπει να χτιστεί με τυποποιημένο, εξαιρετικά ομοιόμορφο τρόπο. Αυτό βοηθά τον αναγνώστη να εξοικονομήσει χρόνο και προσπάθεια.

Γλώσσα περιγραφής

Η γλώσσα περιγραφής χρησιμοποιείται για τη συντεταγμένη ευρετηρίαση εγγράφων και ερωτημάτων μέσω περιγραφών και/ή λέξεων-κλειδιών. Το περιγραφικό ILP βασίζεται σε έναν αλφαβητικό κατάλογο λεξιλογικών μονάδων.

Ήταν οι γλώσσες περιγραφής που άνοιξαν τη δυνατότητα αυτοματοποίησης της ανάκτησης πληροφοριών. Σας επιτρέπουν να αποκαλύπτετε το περιεχόμενο των εγγράφων με επαρκείς λεπτομέρειες και από πολλές πτυχές. Οι περιγραφείς και οι λέξεις-κλειδιά συμπληρώνονται και ενημερώνονται εύκολα, καθώς κάθε λεξικό στοιχείο που είναι απαραίτητο για την ευρετηρίαση μπορεί να συμπεριληφθεί στην αλφαβητική λίστα. Ωστόσο, οι γλώσσες περιγραφής έχουν σχεδιαστεί για ελεγχόμενη ευρετηρίαση, π.χ. για τον έλεγχο της ορολογίας που χρησιμοποιείται στην ευρετηρίαση.

Οι γλώσσες ταξινόμησης και περιγραφής αντικατοπτρίζουν δύο αντίθετες τάσεις στη σχέση μεταξύ επιστημών και βιομηχανιών: τη διαφοροποίηση των επιστημών και την ενσωμάτωσή τους.

Δεν υπάρχουν μελέτες που να δικαιολογούν τη διατήρηση πολλαπλών συστημάτων ευρετηρίασης. Όμως, δεδομένου ότι καθένας από τους υπάρχοντες ISP παρέχει την εκπλήρωση ορισμένων εργασιών και έχει, μαζί με πλεονεκτήματα και μειονεκτήματα, είναι πιο σκόπιμο να χρησιμοποιηθούν αρκετοί ISP στην ΕΚ. Σύμφωνα με τον ειδικό του RSL E.M. Zaitseva, η χρήση πολλών συστημάτων ευρετηρίασης στην EC σας επιτρέπει να επεκτείνετε τις δυνατότητες αναζήτησης, συμβατότητας ανταλλαγής.

Πηδάω σε: πλοήγηση, Αναζήτηση

Γλώσσα ανάκτησης πληροφοριών(IPYA) - τεχνητή γλώσσα, που αντιπροσωπεύει ένα σύνολο μέσων για την περιγραφή του τυπικού και του ουσιαστικού δομέςΓια Αναζήτηση(με ευρετηρίαση) κατόπιν αίτησης χρήστης.

Δομή

Στο IIP, μπορεί κανείς να διακρίνει αλφάβητο, λεξιλόγιοκαι γραμματική.

    Αλφάβητο- ένα σύνολο ορισμένων χαρακτήρων για τη σύνταξη λέξεων και εκφράσεων. Πολλές γλώσσες χρησιμοποιούν σύμβολα για αυτό. φυσική γλώσσα.

    Λεξιλόγιο- το σύνολο όλων των λέξεων που χρησιμοποιούνται στη γλώσσα - λεξιλογικές μονάδες.

    Γραμματική- Κανόνες σύνθεσης εκφράσεων. Η γραμματική σε πολλά ISL είναι τυπική και σε μερικά δεν υπάρχει καθόλου.

Οι παραδειγματικές σχέσεις, δηλαδή οι σημασιολογικές σχέσεις μεταξύ λεξιλογικών ενοτήτων, χρησιμεύουν για την οργάνωση λεξικών ενοτήτων στην κατασκευή του λεξιλογίου. Αυτές οι σχέσεις καθορίζονται και καθορίζονται στο λεξικό της γλώσσας, με βάση τις ανάγκες ανάκτησης πληροφοριών.

Είδη και είδη ip Μέθοδος προσδιορισμού λεξιλογικών ενοτήτων

    Οι ελεγχόμενες γλώσσες είναι γλώσσες των οποίων το λεξιλόγιο ορίζεται και ελέγχεται χρησιμοποιώντας λεξικά και πίνακες. Περιλαμβάνουν διάφορες ταξινομήσεις. (καθολική δεκαδική ταξινόμηση, βιβλιογραφική ταξινόμηση, ταξινόμηση Dewey ).

    1. Γλώσσα των θεματικών επικεφαλίδων. Με βάση την ιεραρχική ταξινόμηση, κατασκευάζονται συστηματικοί κατάλογοι. Με βάση τη γλώσσα των θεματικών επικεφαλίδων, δημιουργούνται κατάλογοι θεμάτων. Αλφαβητικοί κατάλογοι - μη αυτόματη αναζήτηση.

      Περιγραφικά IPN, καθώς και η γλώσσα των λέξεων-κλειδιών - αυτόματη αναζήτηση.

    Ανεξέλεγκτο - το λεξιλόγιο δεν ορίζεται από το λεξικό, αλλά χτίζεται με βάση την επιλογή των όρων της φυσικής γλώσσας. Τέτοια PIP χρησιμοποιούνται ευρέως τα τελευταία χρόνια.

Η σειρά σύνταξης λεξικών ενοτήτων

    Μη συντεταγμένες γλώσσες - αυτές που δεν επιτρέπουν τον συντονισμό των λεξιλογικών τους μονάδων (δεν υπάρχει σύνδεση μεταξύ τους) είτε στη διαδικασία ευρετηρίασης είτε στη διαδικασία αναζήτησης. (το σύστημα τακτοποίησης βιβλίων στο ταμείο της βιβλιοθήκης, σύμφωνα με τους αριθμούς απογραφής).

    Τα συντονισμένα ISL είναι γλώσσες στις οποίες συνδέονται λεξιλογικές μονάδες, συντονισμένες μεταξύ τους είτε κατά τη διαδικασία ευρετηρίασης είτε κατά τη διαδικασία χρήσης.

    1. Προσυντονισμένοι - οι σύνδεσμοι μεταξύ των λεξιλογικών ενοτήτων δημιουργούνται πριν από την αναζήτηση.

      Μετασυντεταγμένα - όταν οι σύνδεσμοι μεταξύ των λεξιλογικών ενοτήτων καθορίζονται μόνο κατά τη διάρκεια της αναζήτησης.

Διάλεξη 8. Αυτοματοποιημένα συστήματα ανάκτησης πληροφοριών.

Σύστημα ανάκτησης πληροφοριών

Ας εξετάσουμε τη διατύπωση του προβλήματος αναζήτησης σε γενική μορφή. Για να γίνει αυτό, πρέπει να απαντήσουμε σε τρεις ερωτήσεις: τι να αναζητήσουμε, δηλαδή ποιες πηγές πληροφοριών, πού να ψάξουμε (μέρη όπου βρίσκονται αυτές οι πηγές) και πώς να ψάξουμε (τι εργαλεία να χρησιμοποιήσουμε για αυτό).

Ποιες είναι οι κύριες πηγές πληροφοριών που παρέχονται στο Διαδίκτυο;

Αυτά είναι έγγραφα WWW, άρθρα σε ομάδες συζήτησης και λίστες αλληλογραφίας, αρχεία σε βιβλιοθήκες αρχείων, κατάλογοι πληροφοριών διευθύνσεων οργανισμών και ατόμων (e-mail, διεύθυνση, τηλέφωνο), άρθρα σε θεματικές βάσεις δεδομένων, εγκυκλοπαίδειες.

Πού βρίσκονται αυτές οι πηγές πληροφοριών;

Αυτοί είναι δημοφιλείς πόροι του Διαδικτύου, όπως το WWW, οι ομάδες συζήτησης, οι λίστες αλληλογραφίας και οι διακομιστές FTP. Φυσικά, μπορείτε να αναζητήσετε τις απαραίτητες πηγές πληροφοριών με μη αυτόματο τρόπο, να βρείτε διευθύνσεις από εξειδικευμένα περιοδικά για την επιστήμη των υπολογιστών και το Διαδίκτυο, να χρησιμοποιήσετε ειδικούς καταλόγους χαρτιού με διευθύνσεις ταξινομημένες ανά κατηγορία. Ωστόσο, για έναν τόσο ευμετάβλητο χώρο όπως το Διαδίκτυο, είναι απαραίτητο να μάθετε πώς να χρησιμοποιείτε ειδικά εργαλεία, σκοπός των οποίων είναι να συλλέγουν δεδομένα σχετικά με τους πόρους πληροφοριών και να παρέχουν στους χρήστες μια υπηρεσία γρήγορης αναζήτησης.

Το IPS (σύστημα ανάκτησης πληροφοριών) είναι ένα σύστημα που παρέχει την αναζήτηση και επιλογή των απαραίτητων δεδομένων σε ειδική βάση δεδομένων με περιγραφές πηγών πληροφοριών (ευρετήριο) με βάση τη γλώσσα ανάκτησης πληροφοριών και τους αντίστοιχους κανόνες αναζήτησης.

Το κύριο καθήκον κάθε ΠΣ είναι να αναζητήσει πληροφορίες σχετικές με τις ανάγκες πληροφοριών του χρήστη. Είναι πολύ σημαντικό να μην χάσετε τίποτα ως αποτέλεσμα της αναζήτησης, δηλαδή να βρείτε όλα τα έγγραφα που σχετίζονται με το αίτημα και να μην βρείτε τίποτα περιττό. Επομένως, εισάγεται ένα ποιοτικό χαρακτηριστικό της διαδικασίας αναζήτησης - συνάφεια.

Η συνάφεια είναι η αντιστοιχία των αποτελεσμάτων αναζήτησης με το διατυπωμένο ερώτημα. Στη συνέχεια, θα εξετάσουμε κυρίως το IPS για τον Παγκόσμιο Ιστό (WWW). Οι κύριοι δείκτες του IPS για το WWW είναι η χωρική κλίμακα και η εξειδίκευση. Σύμφωνα με τη χωρική κλίμακα, το IPS μπορεί να χωριστεί σε τοπικό, παγκόσμιο, περιφερειακό και εξειδικευμένο. Οι τοπικές μηχανές αναζήτησης μπορούν να σχεδιαστούν για να βρίσκουν γρήγορα σελίδες σε μία κλίμακα διακομιστή. Το περιφερειακό IPS περιγράφει τους πόρους πληροφοριών μιας συγκεκριμένης περιοχής, για παράδειγμα, σελίδες ρωσικής γλώσσας στο Διαδίκτυο. Οι παγκόσμιες μηχανές αναζήτησης, σε αντίθεση με τις τοπικές, προσπαθούν να αγκαλιάσουν την απεραντοσύνη - να περιγράψουν όσο το δυνατόν πληρέστερα τους πόρους ολόκληρου του χώρου πληροφοριών του Διαδικτύου.

Γενικά, διακρίνονται τα ακόλουθα εργαλεία αναζήτησης για το WWW: κατάλογοι, μηχανές αναζήτησης, μηχανές μετα-αναζήτησης.

Κατάλογος - μια μηχανή αναζήτησης με μια λίστα σχολιασμών ταξινομημένων ανά θέματα με συνδέσμους σε πόρους Ιστού. Η ταξινόμηση γίνεται συνήθως από ανθρώπους. Η αναζήτηση στον κατάλογο είναι πολύ βολική και πραγματοποιείται με διαδοχική βελτίωση των θεμάτων. Ωστόσο, οι κατάλογοι υποστηρίζουν τη δυνατότητα γρήγορης αναζήτησης για μια συγκεκριμένη κατηγορία ή σελίδα ανά λέξη-κλειδί χρησιμοποιώντας μια τοπική μηχανή αναζήτησης. Η βάση δεδομένων συνδέσμων (ευρετήριο) του καταλόγου είναι συνήθως περιορισμένο σε μέγεθος, που συμπληρώνεται χειροκίνητα από το προσωπικό του καταλόγου. Ορισμένοι κατάλογοι χρησιμοποιούν αυτόματη ενημέρωση ευρετηρίου. Το αποτέλεσμα αναζήτησης στον κατάλογο παρουσιάζεται ως λίστα που αποτελείται από Σύντομη περιγραφή(σχολιασμοί) εγγράφων με σύνδεσμο υπερκειμένου στην πηγή.

Διευθύνσεις δημοφιλών καταλόγων:

Ξένοι κατάλογοι:

Yahoo - www.yahoo.com Magellan - www.mckinley.com

Ρωσικοί κατάλογοι:

@Rus-www.aport.ruWeblist-www.weblist.ruSnail -www.ulitka.ru

μηχανή αναζήτησης

Μηχανή αναζήτησης - μια μηχανή αναζήτησης με μια βάση δεδομένων που δημιουργείται από ένα ρομπότ που περιέχει πληροφορίες σχετικά με πόρους πληροφοριών. Ένα ιδιαίτερο χαρακτηριστικό των μηχανών αναζήτησης είναι το γεγονός ότι μια βάση δεδομένων που περιέχει πληροφορίες για ιστοσελίδες, άρθρα Usenet κ.λπ., δημιουργείται από ένα πρόγραμμα ρομπότ. Μια αναζήτηση σε ένα τέτοιο σύστημα πραγματοποιείται κατόπιν αιτήματος που συντάσσεται από τον χρήστη, που αποτελείται από ένα σύνολο λέξεων-κλειδιών ή μια φράση που περικλείεται σε εισαγωγικά. Το ευρετήριο σχηματίζεται και διατηρείται ενημερωμένο από ρομπότ ευρετηρίασης. Η περιγραφή του εγγράφου περιέχει τις περισσότερες φορές τις πρώτες προτάσεις ή αποσπάσματα από το κείμενο του εγγράφου με επισημασμένες λέξεις-κλειδιά. Κατά κανόνα, υποδεικνύεται η ημερομηνία ενημέρωσης (έλεγχος) του εγγράφου, το μέγεθός του σε kilobyte, ορισμένα συστήματα καθορίζουν τη γλώσσα του εγγράφου και την κωδικοποίησή του (για έγγραφα ρωσικής γλώσσας). Τι μπορεί να γίνει με τα αποτελέσματα; Εάν ο τίτλος και η περιγραφή του εγγράφου πληρούν τις απαιτήσεις σας, μπορείτε να μεταβείτε αμέσως στην πηγή του κάνοντας κλικ στον σύνδεσμο. Είναι πιο βολικό να το κάνετε αυτό σε ένα νέο παράθυρο για να μπορείτε να αναλύσετε περαιτέρω τα αποτελέσματα αναζήτησης. Πολλές μηχανές αναζήτησης σάς επιτρέπουν να κάνετε αναζήτηση μέσα στα έγγραφα που βρέθηκαν και μπορείτε να κάνετε πιο συγκεκριμένο το ερώτημά σας εισάγοντας πρόσθετους όρους. Εάν η ευφυΐα του συστήματος είναι υψηλή, ενδέχεται να σας προσφερθεί η υπηρεσία αναζήτησης παρόμοιων εγγράφων. Για να το κάνετε αυτό, επιλέγετε το έγγραφο που σας αρέσει ιδιαίτερα και το υποδεικνύετε στο σύστημα ως πρότυπο. Ωστόσο, η αυτοματοποίηση της ανίχνευσης ομοιότητας δεν είναι μια ασήμαντη εργασία και συχνά αυτή η λειτουργία δεν λειτουργεί επαρκώς σύμφωνα με τις προσδοκίες σας. Ορισμένες μηχανές αναζήτησης σάς επιτρέπουν να ταξινομήσετε τα αποτελέσματα. Για να εξοικονομήσετε χρόνο, μπορείτε να αποθηκεύσετε τα αποτελέσματα αναζήτησής σας ως αρχείο στην τοπική μονάδα δίσκου για μετέπειτα μελέτη εκτός σύνδεσης.

Διευθύνσεις των πιο δημοφιλών μηχανών αναζήτησης στο εξωτερικό και στη Ρωσία.

Ξένες μηχανές αναζήτησης:

Google - www.google.comAltavista - www.altavista.comExcite - www.excite.comHotBot - www.hotbot.comNothern Light - www.northernlight.comGo (Infoseek) - www.go.com(infoseek.com) Γρήγορα - www. alltheweb.com

Ρωσικές μηχανές αναζήτησης:

Yandex - www.yandex.ru (ή www.ya.ru) Rambler - www.rambler.ru Aport - www.aport.ru

Μηχανή Metasearch

επιερευνητικό σύστημα. Λάβετε υπόψη ότι διαφορετικές μηχανές αναζήτησης περιγράφουν διαφορετικό αριθμό πηγών πληροφοριών στο Διαδίκτυο. Επομένως, δεν μπορείτε να περιοριστείτε στην αναζήτηση μόνο σε ένα από τα υποδεικνυόμενα μηχανές αναζήτησης. Τώρα ας εξοικειωθούμε με τα εργαλεία αναζήτησης που δεν σχηματίζουν το δικό τους ευρετήριο, αλλά μπορούν να χρησιμοποιήσουν τις δυνατότητες άλλων μηχανών αναζήτησης. Πρόκειται για μηχανές μετα-αναζήτησης (μηχανές αναζήτησης) - συστήματα ικανά να στέλνουν αιτήματα χρηστών ταυτόχρονα σε πολλούς διακομιστές αναζήτησης, στη συνέχεια να συνδυάζουν τα αποτελέσματα και να τα παρουσιάζουν στον χρήστη με τη μορφή εγγράφου με συνδέσμους.

Διευθύνσεις γνωστών μηχανών μετα-αναζήτησης:

MetaCrawler-www.metacrawler.comSavvySearch- www . savvysearch . com

Εύρεση πηγών πληροφοριών

Ας συζητήσουμε το πρόβλημα της εύρεσης μιας τέτοιας πηγής πληροφοριών όπως άρθρα σε ομάδες συζητήσεων. Εργαλεία αναζήτησης σε αυτή την περίπτωση μπορούν να θεωρηθούν οι μηχανές αναζήτησης WWW, οι οποίες ευρετηριάζουν όχι μόνο τον χώρο WWW, αλλά και άρθρα σε ομάδες συζητήσεων και έχουν ειδική λειτουργία αναζήτησης στη συγκεκριμένη πηγή. Οι αναζητήσεις σε ομάδες συζητήσεων υποστηρίζονται, για παράδειγμα, από τον διακομιστή αναζήτησης Altavista. Πρέπει να σημειωθεί ότι οι μηχανές αναζήτησης του WWW ευρετηριάζουν πολύ γρήγορα ομάδες συζητήσεων και περιέχουν πληροφορίες για άρθρα που υπάρχουν πραγματικά στον Ιστό. Υπάρχουν εξειδικευμένα συστήματα αναζήτησης αρχείων ειδήσεων, το πιο γνωστό από τα οποία είναι το σύστημα Deja (www.deja.com). Αυτό το σύστημα σάς επιτρέπει να αναζητήσετε μεμονωμένα άρθρα που περιέχουν τον εισαγόμενο όρο, καθώς και να αναζητήσετε συγκεκριμένες ομάδες συζήτησης αφιερωμένες στη συζήτηση ενός δεδομένου θέματος. Μπορείτε να εγγραφείτε στο Deja και να εγγραφείτε σε ορισμένες ομάδες συζήτησης.

Τώρα εξετάστε τα εργαλεία που σας επιτρέπουν να αναζητήσετε αρχεία. Πολλές μηχανές αναζήτησης WWW άρχισαν να παρέχουν την υπηρεσία αναζήτησης αρχείων πολυμέσων (Altavista, Aport). Για να γίνει αυτό, δεν χρειάζεται να γνωρίζετε καθόλου ειδικούς χειριστές, αλλά απλώς μεταβείτε από την αρχική σελίδα μέσω των συνδέσμων Εικόνες (Εικόνες), MP3/Ήχος ή Βίντεο σε μια ειδική λειτουργία αναζήτησης. Η αναζήτηση πραγματοποιείται με ένα πιθανό όνομα αρχείου ή από το κείμενο σε ένα σχόλιο σε έναν σύνδεσμο προς ένα αρχείο πολυμέσων.

Όσον αφορά τις αναζητήσεις λογισμικού, υπάρχουν διακομιστές αναζήτησης Ιστού στον Παγκόσμιο Ιστό με συλλογές από κοινόχρηστο λογισμικό, μερικοί από τους οποίους ειδικεύονται στην αναζήτηση λογισμικού για το Διαδίκτυο ή για ένα συγκεκριμένο λειτουργικό σύστημα. Αυτά τα συστήματα θα σας οδηγήσουν τελικά σε έναν συγκεκριμένο διακομιστή από τον οποίο μπορείτε να κάνετε λήψη του επιθυμητού προϊόντος λογισμικού. Θα πρέπει να αναφέρω τους διακομιστές Archie, οι οποίοι παρέχουν επίσης μια υπηρεσία αναζήτησης αρχείων σε διακομιστές FTP, αλλά η χρήση διακομιστών Ιστού είναι πολύ πιο βολική.

Εξετάστε τα εργαλεία αναζήτησης για την εύρεση πληροφοριών διεύθυνσης. Ας εισαγάγουμε την έννοια της αναζήτησης Λευκό (Λευκό) και Κίτρινο (Κίτρινο).

Λευκή αναζήτηση - αναζήτηση πληροφοριών διεύθυνσης από ένα προηγουμένως γνωστό όνομα του παραλήπτη (όνομα ενός ατόμου ή οργανισμού)

Κίτρινη αναζήτηση - αναζητήστε το δικό σας όνομα με πρόσθετα χαρακτηριστικά (ανά τύπο δραστηριότητας, ανά γεωγραφικό χαρακτηριστικό) και, στη συνέχεια, αναζητήστε τις πληροφορίες διεύθυνσής του.

Συνήθως, τα συστήματα Χρυσού Οδηγού περιλαμβάνουν στην πραγματικότητα αμέσως Λευκές Σελίδες - ο εντοπισμένος παραλήπτης βλέπει αμέσως τον αριθμό τηλεφώνου και την ταχυδρομική του διεύθυνση. Επιπλέον, ορισμένοι Χρυσός Οδηγός σάς επιτρέπουν να κάνετε απλώς αναζήτηση στην αλφαβητική λίστα των συνδρομητών σας (white-search). Από την άλλη πλευρά, οι λευκές σελίδες περιέχουν επίσης κίτρινα στοιχεία αναζήτησης - εκτός από τον ορισμό του δικού σας ονόματος, συνήθως σας επιτρέπουν να καθορίσετε το όνομα της πόλης, της πολιτείας και άλλα δεδομένα που περιορίζουν την αναζήτηση (το οποίο είναι απαραίτητο στην περίπτωση πολλά συνονόματα). Ίσως αυτός είναι ο λόγος για τον οποίο πολλοί τηλεφωνικοί κατάλογοι σε απευθείας σύνδεση που κάνουν πραγματικά λευκή αναζήτηση αποκαλούν τους εαυτούς τους Yellow pages.

Ακολουθούν οι διευθύνσεις των συστημάτων Ιστού για την εύρεση πληροφοριών διεύθυνσης για άτομα και οργανισμούς.

Αναζήτηση ατόμων:

    Αναζητήστε άτομα στο Yahoo (http://people.yahoo.com).

    Σύστημα WhoWhere (www.whowhere.com).

    Σύστημα Bigfoot (www.bigfoot.com).

Αναζήτηση οργανισμών: ενότητα Κίτρινες σελίδες σε εξειδικευμένους διακομιστές μηχανών αναζήτησης www.yellowpages.com- για αναζήτηση στις ΗΠΑ και σε άλλες χώρες.

Οι χρήστες του Διαδικτύου γνωρίζουν ήδη καλά τα ονόματα τέτοιων υπηρεσιών και υπηρεσιών πληροφοριών όπως Lycos, AltaVista, Yahoo, OpenText, InfoSeek, και σήμερα είναι σχεδόν αδύνατο να βρεθεί κάτι χρήσιμο στη θάλασσα χωρίς τις υπηρεσίες αυτών των συστημάτων. πληροφοριακούς πόρουςΔίκτυα. Αλλά ποιες είναι αυτές οι υπηρεσίες από το εσωτερικό, πώς είναι διατεταγμένες, γιατί το αποτέλεσμα αναζήτησης σε συστοιχίες πληροφοριών terabyte εκτελείται αρκετά γρήγορα και πώς ταξινομούνται τα έγγραφα κατά την έκδοση - όλα αυτά συνήθως παραμένουν στο παρασκήνιο. Ωστόσο, χωρίς σωστό σχεδιασμό στρατηγικής αναζήτησης, εξοικείωση με τις κύριες διατάξεις της θεωρίας του IPS (Information Retrieval Systems), που έχει ήδη είκοσι χρόνια ιστορίας, είναι δύσκολο να χρησιμοποιηθούν αποτελεσματικά ακόμη και τέτοιες υπηρεσίες ταχείας πυρκαγιάς όπως η AltaVista ή η Lycos.

Τα συστήματα ανάκτησης πληροφοριών υπάρχουν εδώ και πολύ καιρό. Πολλά άρθρα έχουν αφιερωθεί στη θεωρία και την πρακτική της κατασκευής τέτοιων συστημάτων, το μεγαλύτερο μέρος των οποίων ανήκει στα τέλη της δεκαετίας του '70 - στις αρχές της δεκαετίας του '80. Από τις εγχώριες πηγές θα πρέπει να ξεχωρίσει κανείς την επιστημονική και τεχνική συλλογή «Επιστημονικές και τεχνικές πληροφορίες. Σειρά 2», η οποία είναι ακόμη υπό έκδοση. Η «Βίβλος» για την ανάπτυξη του IPS - «Δυναμική Βιβλιοθήκη και Συστήματα Πληροφοριών» του J. Solton, η οποία συζητά τις βασικές αρχές της κατασκευής συστημάτων ανάκτησης πληροφοριών και τη μοντελοποίηση των διαδικασιών λειτουργίας τους, δημοσιεύτηκε επίσης στα ρωσικά. Έτσι, δεν μπορεί να ειπωθεί ότι με την έλευση του Διαδικτύου και την ταχεία είσοδό του στην πρακτική της υποστήριξης πληροφοριών, εμφανίστηκε κάτι θεμελιωδώς νέο που δεν υπήρχε πριν. Για την ακρίβεια, το IPS στο Διαδίκτυο είναι μια αναγνώριση ότι ούτε το ιεραρχικό μοντέλο Gopher ούτε το μοντέλο υπερκειμένου του Παγκόσμιου Ιστού δεν έχουν ακόμη λύσει το πρόβλημα της εύρεσης πληροφοριών σε μεγάλους όγκους ετερογενών εγγράφων. Και σήμερα δεν υπάρχει άλλος τρόπος για γρήγορη αναζήτηση δεδομένων, εκτός από την αναζήτηση με λέξεις-κλειδιά. Όταν χρησιμοποιείτε το ιεραρχικό μοντέλο Gopher, πρέπει να περιπλανηθείτε στο δέντρο καταλόγου για αρκετή ώρα μέχρι να βρείτε τις πληροφορίες που χρειάζεστε. Αυτοί οι κατάλογοι πρέπει να διατηρούνται από κάποιον και η θεματική τους διαίρεση πρέπει να ταιριάζει με τις ανάγκες πληροφοριών του χρήστη. Λαμβάνοντας υπόψη την άναρχη φύση του Διαδικτύου και τον τεράστιο αριθμό των διαφόρων ενδιαφερόντων των χρηστών του Διαδικτύου, είναι σαφές ότι κάποιος μπορεί να μην είναι τυχερός και δεν θα υπάρχει κατάλογος στο Διαδίκτυο που να αντικατοπτρίζει μια συγκεκριμένη θεματική περιοχή. Για αυτόν τον λόγο αναπτύχθηκε το πρόγραμμα ανάκτησης πληροφοριών Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives) για ένα σύνολο διακομιστών Gopher που ονομάζεται GopherSpace.

Παρόμοια εξέλιξη παρατηρείται στον Παγκόσμιο Ιστό. Στην πραγματικότητα, το 1988, σε ένα ειδικό τεύχος του περιοδικού "Communication of the ACM", μεταξύ άλλων προβλημάτων ανάπτυξης συστημάτων υπερκειμένου και χρήσης τους, ο Frank Halaz ονόμασε το πρόβλημα της οργάνωσης αναζήτησης πληροφοριών σε μεγάλα δίκτυα υπερκειμένου ως προτεραιότητα για τα επόμενα. δημιουργία συστημάτων αυτού του τύπου. Μέχρι τώρα, πολλές από τις ιδέες που εκφράζονται σε αυτό το άρθρο δεν έχουν ακόμη βρει την εφαρμογή τους. Φυσικά, το σύστημα που πρότεινε ο Berners-Lee και τόσο διαδεδομένο στο Διαδίκτυο θα έπρεπε να αντιμετωπίσει τα ίδια προβλήματα με τους τοπικούς προκατόχους του. Πραγματικά αποδεικτικά στοιχεία για αυτό καταδείχθηκαν στο δεύτερο συνέδριο World Wide Web το φθινόπωρο του 1994, το οποίο παρουσίασε εργασίες σχετικά με την ανάπτυξη συστημάτων ανάκτησης πληροφοριών για τον Ιστό και το σύστημα World Wide Web Worm, που αναπτύχθηκε από τον Oliver McBrien του Πανεπιστημίου του Κολοράντο , κέρδισε το βραβείο για το καλύτερο εργαλείο πλοήγησης. Ας σημειωθεί επίσης ότι η μακροζωία δεν προορίζεται για τα θαυματουργά προγράμματα ταλαντούχων ατόμων, αλλά για τα μέσα που είναι αποτέλεσμα της προγραμματισμένης και συνεπούς κίνησης των επιστημονικών και παραγωγικών ομάδων προς τον στόχο. Αργά ή γρήγορα, η ερευνητική φάση τελειώνει και αρχίζει η φάση λειτουργίας του συστήματος, και αυτό είναι ένα εντελώς διαφορετικό είδος δραστηριότητας. Αυτή ήταν η μοίρα δύο άλλων έργων που παρουσιάστηκαν στο ίδιο συνέδριο: το Lycos, με την υποστήριξη από τη Microsoft, και WebCrawler, το οποίο έγινε ιδιοκτησία της America On-line.

Η ανάπτυξη νέων πληροφοριακών συστημάτων για το Web δεν έχει ολοκληρωθεί. Και τόσο στο στάδιο της συγγραφής εμπορικών συστημάτων, όσο και στο στάδιο της έρευνας. Τα τελευταία δύο χρόνια, μόνο το ανώτερο στρώμα των πιθανών λύσεων έχει αφαιρεθεί. Ωστόσο, πολλά από τα προβλήματα που τίθενται από τους προγραμματιστές IPS του Διαδικτύου δεν έχουν επιλυθεί μέχρι στιγμής. Είναι αυτή η περίσταση που προκάλεσε την εμφάνιση έργων όπως το AltaVista από την Digital, κύριος στόχοςπου είναι η ανάπτυξη λογισμικού ανάκτησης πληροφοριών για τον Ιστό και η επιλογή αρχιτεκτονικής για τον διακομιστή πληροφοριών Ιστού.

Αρχιτεκτονική της σύγχρονης IPS για το WWW

Πριν περιγράψουμε τα προβλήματα της κατασκευής συστημάτων ανάκτησης πληροφοριών Web και τρόπους επίλυσής τους, ας εξετάσουμε ένα τυπικό σχήμα ενός τέτοιου συστήματος. Σε διάφορες δημοσιεύσεις για συγκεκριμένα συστήματα, για παράδειγμα, δίνονται σχήματα που διαφέρουν μεταξύ τους μόνο στον τρόπο εφαρμογής συγκεκριμένων λύσεων λογισμικού και όχι στην αρχή της οργάνωσης των διαφόρων στοιχείων του συστήματος. Επομένως, θα εξετάσουμε αυτό το σχήμα χρησιμοποιώντας ένα παράδειγμα από την εργασία.

Ο πελάτης (πελάτης) σε αυτό το διάγραμμα είναι ένας θεατής για έναν συγκεκριμένο πόρο πληροφοριών. Τα πιο δημοφιλή σήμερα είναι προγράμματα πολλαπλών πρωτοκόλλων όπως το Netscape Navigator. Ένα τέτοιο πρόγραμμα παρέχει προβολή εγγράφων WWW, Gopher, Wais, αρχείων FTP, λιστών αλληλογραφίας και ομάδων συζήτησης Usenet. Με τη σειρά τους, όλοι αυτοί οι πόροι πληροφοριών είναι το αντικείμενο αναζήτησης του συστήματος ανάκτησης πληροφοριών.

Το περιβάλλον χρήστη (user interface) δεν είναι απλώς ένας θεατής, στην περίπτωση ενός συστήματος ανάκτησης πληροφοριών, αυτή η φράση γίνεται επίσης κατανοητή ως ένας τρόπος επικοινωνίας ενός χρήστη με μια μηχανή αναζήτησης: ένα σύστημα για τη δημιουργία ερωτημάτων και την προβολή αποτελεσμάτων αναζήτησης.

Μηχανή αναζήτησης (μηχανή αναζήτησης) - χρησιμεύει για τη μετάφραση ενός ερωτήματος σε μια γλώσσα ανάκτησης πληροφοριών (IPL) σε ένα επίσημο ερώτημα συστήματος, την αναζήτηση συνδέσμων σε πόρους πληροφοριών στον Ιστό και την εμφάνιση των αποτελεσμάτων αυτής της αναζήτησης στον χρήστη.

Βάση δεδομένων ευρετηρίου (ευρετήριο βάσης δεδομένων) - ένα ευρετήριο, το οποίο είναι η κύρια συστοιχία δεδομένων του IPS και χρησιμοποιείται για την αναζήτηση της διεύθυνσης ενός πόρου πληροφοριών. Η αρχιτεκτονική του ευρετηρίου είναι σχεδιασμένη με τέτοιο τρόπο ώστε η αναζήτηση να γίνεται όσο το δυνατόν γρηγορότερα και ταυτόχρονα να είναι δυνατή η αξιολόγηση της αξίας καθενός από τους πόρους πληροφοριών που βρέθηκαν στο δίκτυο.

Ερωτήματα (αιτήματα χρήστη) - αποθηκεύονται στην προσωπική του βάση δεδομένων (του χρήστη). Απαιτείται πολύς χρόνος για τον εντοπισμό σφαλμάτων κάθε αίτησης και επομένως είναι εξαιρετικά σημαντικό να θυμόμαστε αιτήματα για τα οποία το σύστημα δίνει καλές απαντήσεις.

Ρομπότ ευρετηρίου (robot-indexer) - χρησιμεύει για την ανίχνευση του Διαδικτύου και τη διατήρηση της βάσης δεδομένων ευρετηρίου ενημερωμένη. Αυτό το πρόγραμμα είναι η κύρια πηγή πληροφοριών σχετικά με την κατάσταση των πόρων πληροφοριών δικτύου.

Ιστότοποι WWW - αυτό είναι ολόκληρο το Διαδίκτυο, ή ακριβέστερα - πόροι πληροφοριών, η προβολή των οποίων παρέχεται από προγράμματα περιήγησης.

Ας εξετάσουμε τώρα τον σκοπό και την αρχή της κατασκευής καθενός από αυτά τα στοιχεία με περισσότερες λεπτομέρειες και ας προσδιορίσουμε τη διαφορά μεταξύ αυτού του συστήματος και του παραδοσιακού τοπικού τύπου IPS.

Στα παραδοσιακά συστήματα, χρησιμοποιείται η έννοια της αναζήτησης εικόνας ενός εγγράφου - POD. Συνήθως, αυτός ο όρος αναφέρεται σε κάτι που αντικαθιστά το έγγραφο και χρησιμοποιείται στην αναζήτηση αντί για το πραγματικό έγγραφο. Η εικόνα αναζήτησης είναι το αποτέλεσμα της εφαρμογής κάποιου μοντέλου του πίνακα πληροφοριών των εγγράφων σε έναν πραγματικό πίνακα. Το πιο δημοφιλές μοντέλο είναι το διανυσματικό μοντέλο, στο οποίο σε κάθε έγγραφο εκχωρείται μια λίστα όρων που αντικατοπτρίζουν επαρκέστερα το νόημά του. Για να είμαστε πιο ακριβείς, στο έγγραφο εκχωρείται ένα διάνυσμα διάστασης ίσο με τον αριθμό των όρων που μπορούν να χρησιμοποιηθούν στην αναζήτηση. Με ένα Boolean διανυσματικό μοντέλο, το διανυσματικό στοιχείο είναι ίσο με 1 ή 0, ανάλογα με την παρουσία ή την απουσία του όρου στο POD. Σε πιο σύνθετα μοντέλα, οι όροι σταθμίζονται - το διανυσματικό στοιχείο δεν είναι ίσο με 1 ή 0, αλλά με έναν ορισμένο αριθμό (βάρος) που αντικατοπτρίζει την αντιστοιχία αυτού του όρου στο έγγραφο. Είναι το τελευταίο μοντέλο που έχει γίνει το πιο δημοφιλές στο Internet IPS.

Σε γενικές γραμμές, υπάρχουν άλλα μοντέλα για την περιγραφή εγγράφων: το πιθανολογικό μοντέλο ροών και αναζήτησης πληροφοριών και το μοντέλο αναζήτησης σε ασαφή σύνολα. Χωρίς να υπεισέλθουμε σε λεπτομέρειες, είναι λογικό να δοθεί προσοχή στο γεγονός ότι μέχρι στιγμής χρησιμοποιείται μόνο το γραμμικό μοντέλο στα συστήματα Lycos, WebCrawler, AltaVista, OpenText και AliWeb. Ωστόσο, γίνονται μελέτες για την εφαρμογή άλλων μοντέλων, τα αποτελέσματα των οποίων αποτυπώνονται στις εργασίες. Έτσι, η πρώτη εργασία που πρέπει να επιλύσει το IPS είναι η αντιστοίχιση μιας λίστας λέξεων-κλειδιών σε ένα έγγραφο ή έναν πόρο πληροφοριών. Αυτή η διαδικασία ονομάζεται ευρετηρίαση. Συχνά, ωστόσο, η ευρετηρίαση αναφέρεται στη σύνταξη ενός αρχείου λίστας αναρτήσεων, στο οποίο σε κάθε όρο ευρετηρίου εκχωρείται μια λίστα εγγράφων στα οποία εμφανίζεται. Μια τέτοια διαδικασία είναι μόνο μια ειδική περίπτωση, ή μάλλον, μια τεχνική πτυχή της δημιουργίας μιας μηχανής αναζήτησης IPS. Το πρόβλημα με την ευρετηρίαση είναι ότι η απόδοση μιας εικόνας αναζήτησης σε ένα έγγραφο ή έναν πόρο πληροφοριών βασίζεται στην ιδέα ότι το λεξιλόγιο από το οποίο επιλέγονται αυτοί οι όροι είναι ένα σταθερό σύνολο όρων. Στα παραδοσιακά συστήματα, υπήρχε μια διαίρεση σε συστήματα ελεγχόμενου λεξιλογίου και σε ελεύθερα λεξιλογικά συστήματα. Ένα ελεγχόμενο λεξικό προϋπέθετε τη διατήρηση κάποιας λεξιλογικής βάσης δεδομένων, η προσθήκη όρων στην οποία πραγματοποιήθηκε από τον διαχειριστή του συστήματος και όλα τα νέα έγγραφα μπορούσαν να ευρετηριαστούν μόνο από τους όρους που υπήρχαν σε αυτήν τη βάση δεδομένων. Το δωρεάν λεξικό ενημερώθηκε αυτόματα καθώς εμφανίζονταν νέα έγγραφα. Ωστόσο, κατά τη στιγμή της ενημέρωσης το λεξικό είχε επίσης διορθωθεί. Η πραγματοποίηση περιελάμβανε πλήρη επαναφόρτωση της βάσης δεδομένων. Κατά τη στιγμή αυτής της ενημέρωσης, τα ίδια τα έγγραφα επαναφορτώθηκαν και το λεξικό ενημερώθηκε και μετά την ενημέρωσή του, έγινε εκ νέου ευρετήριο των εγγράφων. Η διαδικασία ενημέρωσης πήρε πολύ χρόνο και η πρόσβαση στο σύστημα τη στιγμή της ενημέρωσης έκλεισε.

Τώρα φανταστείτε την πιθανότητα μιας τέτοιας διαδικασίας σε ένα άναρχο Διαδίκτυο, όπου οι πόροι εμφανίζονται και εξαφανίζονται καθημερινά. Όταν δημιουργήθηκε η Veronica για το GopherSpace, θεωρήθηκε ότι όλοι οι διακομιστές έπρεπε να είναι εγγεγραμμένοι, και έτσι διατηρήθηκε η παρουσία ή η απουσία ενός πόρου. Η Veronica έλεγχε για έγγραφα Gopher μία φορά το μήνα και ενημέρωσε τη βάση δεδομένων της AML για έγγραφα Gopher. Δεν υπάρχει κάτι παρόμοιο στον Παγκόσμιο Ιστό. Για την επίλυση αυτού του προβλήματος, χρησιμοποιούνται προγράμματα σάρωσης δικτύου ή ρομπότ ευρετηρίου. Η ανάπτυξη ρομπότ είναι μια μάλλον μη τετριμμένη εργασία. υπάρχει κίνδυνος το ρομπότ να κάνει loop ή να μπει σε εικονικές σελίδες. Το ρομπότ σαρώνει το δίκτυο, βρίσκει νέους πόρους, τους εκχωρεί όρους και τους τοποθετεί στη βάση δεδομένων ευρετηρίου. Το κύριο ερώτημα είναι ποιοι όροι να αποδοθούν στα έγγραφα, από πού να τα αποκτήσετε, επειδή ορισμένοι πόροι δεν είναι καθόλου κείμενο. Σήμερα, τα ρομπότ χρησιμοποιούν συνήθως τις ακόλουθες πηγές για ευρετηρίαση για να προσθέσουν στο εικονικό τους λεξιλόγιο: συνδέσμους υπερκειμένου, επικεφαλίδες, επικεφαλίδες (H1, H2), περιλήψεις, λίστες λέξεων-κλειδιών, έγγραφα πλήρους κειμένου και μηνύματα διαχειριστών σχετικά με τις ιστοσελίδες τους. Για την ευρετηρίαση telnet, gopher, ftp, μη κειμένου, χρησιμοποιούνται κυρίως διευθύνσεις URL, για λίστες ειδήσεων και αλληλογραφίας Usenet, τα πεδία Θέμα και Λέξεις-κλειδιά. Τα έγγραφα HTML παρέχουν το μεγαλύτερο περιθώριο για τη δημιουργία POD. Ωστόσο, δεν πρέπει να πιστεύουμε ότι όλοι οι όροι από τα παρατιθέμενα στοιχεία των εγγράφων εμπίπτουν στις εικόνες αναζήτησής τους. Χρησιμοποιούνται πολύ ενεργά λίστες απαγορευμένων λέξεων (stop-words), οι οποίες δεν μπορούν να χρησιμοποιηθούν για ευρετηρίαση, κοινές λέξεις (προθέσεις, σύνδεσμοι κ.λπ.). Έτσι, ακόμη και αυτό που στο OpenText, για παράδειγμα, ονομάζεται ευρετηρίαση πλήρους κειμένου είναι στην πραγματικότητα μια επιλογή λέξεων από το κείμενο ενός εγγράφου και μια σύγκριση με ένα σύνολο διαφορετικών λεξικών, μετά από τα οποία ο όρος εμπίπτει στο POD και στη συνέχεια στο το ευρετήριο του συστήματος. Για να μην διογκώνονται λεξικά και ευρετήρια (ο δείκτης του συστήματος Lycos είναι ήδη 4 TB σήμερα), χρησιμοποιείται ο όρος βάρος. Το έγγραφο συνήθως ευρετηριάζεται μέσω των 40 - 100 πιο «βαρέων» όρων.

Αφού ευρετηριαστούν οι πόροι και το σύστημα έχει μεταγλωττίσει έναν πίνακα POD, ξεκινά η κατασκευή της μηχανής αναζήτησης. Είναι προφανές ότι η μετωπική προβολή του αρχείου ή των αρχείων POD θα πάρει πολύ χρόνο, κάτι που δεν είναι απολύτως αποδεκτό για ένα διαδραστικό σύστημα WWW. Για να επιταχυνθεί η αναζήτηση, δημιουργείται ένα ευρετήριο, το οποίο στα περισσότερα συστήματα είναι ένα σύνολο διασυνδεδεμένων αρχείων που επικεντρώνονται σε μια γρήγορη αναζήτηση δεδομένων κατά παραγγελία. Η δομή και η σύνθεση των ευρετηρίων διαφόρων συστημάτων μπορεί να διαφέρουν μεταξύ τους και να εξαρτώνται από πολλούς παράγοντες: το μέγεθος της σειράς εικόνων αναζήτησης, τη γλώσσα ανάκτησης πληροφοριών, την τοποθέτηση διαφόρων στοιχείων του συστήματος κ.λπ. Ας εξετάσουμε τη δομή του ευρετηρίου χρησιμοποιώντας το σύστημα ως παράδειγμα, για το οποίο είναι δυνατό να εφαρμοστεί όχι μόνο η πρωτόγονη boolean, αλλά και η αναζήτηση με βάση τα συμφραζόμενα και η σταθμισμένη αναζήτηση, καθώς και μια σειρά από άλλα χαρακτηριστικά που δεν είναι διαθέσιμα σε πολλές μηχανές αναζήτησης στο Διαδίκτυο , όπως το Yahoo. Το ευρετήριο του υπό εξέταση συστήματος αποτελείται από έναν πίνακα αναγνωριστικού σελίδας (page-ID), έναν πίνακα λέξεων-κλειδιών (Keyword-ID), έναν πίνακα τροποποίησης σελίδας, έναν πίνακα επικεφαλίδων, έναν πίνακα συνδέσμων υπερκειμένου, μια ανεστραμμένη λίστα (IL) και λίστα προώθησης (FL).

Το αναγνωριστικό σελίδας αντιστοιχίζει τα αναγνωριστικά σελίδων στις διευθύνσεις URL τους, το Αναγνωριστικό λέξης-κλειδιού αντιστοιχίζει κάθε λέξη-κλειδί σε ένα μοναδικό αναγνωριστικό για αυτήν τη λέξη, ο Πίνακας κεφαλίδας αντιστοιχίζει ένα αναγνωριστικό σελίδας σε έναν τίτλο σελίδας, ο Πίνακας συνδέσμων υπερκειμένου αντιστοιχίζει ένα αναγνωριστικό σελίδας σε έναν σύνδεσμο υπερκειμένου σε αυτήν τη σελίδα. Η λίστα ανάρτησης συσχετίζει κάθε λέξη-κλειδί του εγγράφου με μια λίστα ζευγών - το αναγνωριστικό σελίδας, τη θέση της λέξης στη σελίδα. Μια λίστα προς τα εμπρός είναι μια σειρά εικόνων αναζήτησης σελίδων. Όλα αυτά τα αρχεία χρησιμοποιούνται με τον ένα ή τον άλλο τρόπο στην αναζήτηση, αλλά το κύριο από αυτά είναι το αρχείο λίστας αναρτήσεων. Το αποτέλεσμα μιας αναζήτησης σε αυτό το αρχείο είναι η ένωση και/ή τομή λιστών αναγνωριστικών σελίδων. Η λίστα που προκύπτει, η οποία μετατρέπεται σε μια λίστα τίτλων που παρέχεται με συνδέσμους υπερκειμένου, επιστρέφεται στον χρήστη στο πρόγραμμα περιήγησής του στο Web. Προκειμένου να αναζητήσετε γρήγορα καταχωρήσεις στη λίστα αναρτήσεων, προστίθενται πολλά ακόμη αρχεία πάνω από αυτήν, για παράδειγμα, ένα αρχείο ζευγών γραμμάτων που υποδεικνύουν καταχωρήσεις στη λίστα αναρτήσεων που ξεκινούν με αυτά τα ζεύγη. Επιπλέον, χρησιμοποιείται μηχανισμός άμεσης πρόσβασης στα δεδομένα - κατακερματισμός. Για την ενημέρωση του ευρετηρίου, χρησιμοποιείται ένας συνδυασμός δύο προσεγγίσεων. Η πρώτη μπορεί να ονομαστεί "on-the-fly" διόρθωση ευρετηρίου χρησιμοποιώντας τον πίνακα τροποποίησης σελίδας. Η ουσία αυτής της λύσης είναι αρκετά απλή: η παλιά καταχώρηση ευρετηρίου αναφέρεται στη νέα, η οποία χρησιμοποιείται στην αναζήτηση. Όταν ο αριθμός τέτοιων συνδέσμων γίνει επαρκής για να τον νιώσετε κατά την αναζήτηση, τότε το ευρετήριο ενημερώνεται πλήρως - φορτώνεται ξανά. Η απόδοση αναζήτησης σε οποιοδήποτε συγκεκριμένο IPS καθορίζεται αποκλειστικά από την αρχιτεκτονική του ευρετηρίου. Κατά κανόνα, η μέθοδος οργάνωσης αυτών των συστοιχιών είναι το «μυστικό της εταιρείας» και το καμάρι της. Για να πειστείτε για αυτό, αρκεί να διαβάσετε τα υλικά OpenText.

Το ευρετήριο είναι μόνο ένα μέρος της μηχανής αναζήτησης, κρυμμένο από τον χρήστη. Το δεύτερο μέρος αυτής της συσκευής είναι η γλώσσα ανάκτησης πληροφοριών (IPL), η οποία καθιστά δυνατή τη διατύπωση ενός αιτήματος προς το σύστημα σε απλή και οπτική μορφή. Ο ρομαντισμός της δημιουργίας της ISL ως φυσικής γλώσσας έχει μείνει εδώ και καιρό πίσω - ήταν αυτή η προσέγγιση που χρησιμοποιήθηκε στο σύστημα Wais στα πρώτα στάδια της εφαρμογής του. Ακόμα κι αν ζητηθεί από τον χρήστη να εισαγάγει ερωτήματα σε φυσική γλώσσα, αυτό δεν σημαίνει ότι το σύστημα θα εκτελέσει σημασιολογική ανάλυση του ερωτήματος του χρήστη. Η πεζογραφία της ζωής έγκειται στο γεγονός ότι συνήθως η φράση χωρίζεται σε λέξεις, από τις οποίες αφαιρούνται οι απαγορευμένες και κοινές λέξεις, μερικές φορές κανονικοποιείται το λεξιλόγιο και στη συνέχεια όλες οι λέξεις συνδέονται είτε με ένα λογικό ΚΑΙ είτε με Ή. Ένα αίτημα λοιπόν όπως:

>Λογισμικό που χρησιμοποιείται στην πλατφόρμα Unix

θα μετατραπεί σε:

> Unix ΚΑΙ Πλατφόρμα ΚΑΙ Λογισμικό

που θα σήμαινε κάπως έτσι: "Βρείτε όλα τα έγγραφα στα οποία εμφανίζονται ταυτόχρονα οι λέξεις Unix, Platform και Software."

Επιλογές είναι επίσης δυνατές. Έτσι, στα περισσότερα συστήματα, η φράση "Unix Platform" θα αναγνωρίζεται ως φράση πρόσβασης και δεν θα χωρίζεται σε μεμονωμένες λέξεις. Μια άλλη προσέγγιση είναι ο υπολογισμός της εγγύτητας μεταξύ του ερωτήματος και του εγγράφου. Αυτή είναι η προσέγγιση που χρησιμοποιεί ο Lycos. Στην περίπτωση αυτή, σύμφωνα με το διανυσματικό μοντέλο αναπαράστασης εγγράφων και ερωτημάτων, υπολογίζεται το μέτρο εγγύτητάς τους. Περίπου δώδεκα διαφορετικά μέτρα εγγύτητας είναι γνωστά σήμερα. Το πιο συχνά χρησιμοποιούμενο είναι το συνημίτονο της γωνίας μεταξύ της εικόνας αναζήτησης του εγγράφου και του ερωτήματος του χρήστη. Συνήθως, αυτά τα ποσοστά συμμόρφωσης εγγράφων με το αίτημα δίνονται ως πληροφορίες αναφοράς στη λίστα των εγγράφων που βρέθηκαν.

Η Alta Vista έχει την πιο ανεπτυγμένη γλώσσα ερωτημάτων μεταξύ των σύγχρονων IPS του Διαδικτύου. Εκτός από το συνηθισμένο σύνολο AND, OR, NOT, αυτό το σύστημα σας επιτρέπει επίσης να χρησιμοποιήσετε το NEAR, το οποίο σας επιτρέπει να οργανώσετε μια αναζήτηση με βάση τα συμφραζόμενα. Όλα τα έγγραφα στο σύστημα χωρίζονται σε πεδία, επομένως στο αίτημα μπορείτε να καθορίσετε σε ποιο μέρος του εγγράφου ο χρήστης ελπίζει να δει τη λέξη-κλειδί: σύνδεσμος, τίτλος, περίληψη κ.λπ. Μπορείτε επίσης να ορίσετε το πεδίο κατάταξης έκδοσης και το κριτήριο για την ομοιότητα των εγγράφων με το αίτημα.

Ένας σημαντικός παράγοντας είναι ο τύπος παρουσίασης των πληροφοριών στο πρόγραμμα διεπαφής. Υπάρχουν δύο τύποι σελίδων στο μπροστινό μέρος: σελίδες ερωτημάτων και σελίδες αποτελεσμάτων αναζήτησης.

Όταν κάνετε ένα αίτημα στο σύστημα, χρησιμοποιείται είτε μια προσέγγιση προσανατολισμένη στο μενού, είτε γραμμή εντολών. Η πρώτη σάς επιτρέπει να εισαγάγετε μια λίστα όρων, που συνήθως χωρίζονται με κενό διάστημα, και να επιλέξετε τον τύπο της λογικής σχέσης μεταξύ τους. Η λογική σύνδεση εκτείνεται σε όλους τους όρους. Σε αυτό που φαίνεται στο σχ. Το Σχήμα 1 έχει αποθηκεύσει ερωτήματα χρήστη - στα περισσότερα συστήματα αυτή είναι απλώς μια φράση CSL που μπορεί να επεκταθεί για να συμπεριλάβει νέους όρους και λογικούς τελεστές. Αλλά αυτός είναι μόνο ένας τρόπος χρήσης αποθηκευμένων ερωτημάτων, που ονομάζεται βελτίωση ή βελτίωση ερωτήματος. Για να εκτελέσετε αυτήν τη λειτουργία, το παραδοσιακό IS δεν αποθηκεύει ένα ερώτημα ως τέτοιο, αλλά ένα αποτέλεσμα αναζήτησης - μια λίστα αναγνωριστικών εγγράφων, η οποία συνδυάζεται / τέμνεται με τη λίστα που λαμβάνεται κατά την αναζήτηση εγγράφων για νέους όρους. Δυστυχώς, η αποθήκευση της λίστας των αναγνωριστικών των εγγράφων που βρέθηκαν στο WWW δεν εφαρμόζεται, κάτι που προκλήθηκε από την ιδιαιτερότητα των πρωτοκόλλων για την αλληλεπίδραση μεταξύ του προγράμματος-πελάτη και του διακομιστή που δεν υποστηρίζουν τη λειτουργία περιόδου λειτουργίας.

Έτσι, το αποτέλεσμα μιας αναζήτησης στη βάση δεδομένων IPS είναι μια λίστα δεικτών σε έγγραφα που ικανοποιούν το αίτημα. Διαφορετικά συστήματα παρουσιάζουν αυτή τη λίστα διαφορετικά. Ορισμένοι δίνουν μόνο μια λίστα συνδέσμων, ενώ άλλοι, όπως το Lycos, το Alta Vista και το Yahoo, δίνουν επίσης μια σύντομη περιγραφή, η οποία είτε λαμβάνεται από τις επικεφαλίδες είτε από το σώμα του ίδιου του εγγράφου. Επιπλέον, το σύστημα αναφέρει πόσο ταιριάζει το έγγραφο που βρέθηκε στο αίτημα. Στο Yahoo, για παράδειγμα, αυτός είναι ο αριθμός των όρων ερωτήματος που περιέχονται στο AML, σύμφωνα με τον οποίο κατατάσσεται το αποτέλεσμα αναζήτησης. Το σύστημα Lycos δίνει ένα μέτρο της συμμόρφωσης του εγγράφου με το αίτημα, σύμφωνα με το οποίο γίνεται η κατάταξη.

Εκτός από συνδέσμους σε έγγραφα, η λίστα που λαμβάνει ο χρήστης μπορεί να περιλαμβάνει συνδέσμους προς τμήματα εγγράφων ή τα πεδία τους. Αυτό συμβαίνει όταν υπάρχουν σύνδεσμοι όπως http://host/path#mark ή σύνδεσμοι που χρησιμοποιούν το σχήμα WAIS. Οι σύνδεσμοι σε σενάρια είναι επίσης δυνατοί, αλλά τα ρομπότ συνήθως παραλείπουν τέτοιους συνδέσμους και το σύστημα δεν τους ευρετηριάζει. Αν όλα είναι λίγο πολύ ξεκάθαρα με τους συνδέσμους http, τότε οι σύνδεσμοι WAIS είναι πολύ πιο σύνθετα αντικείμενα. Το γεγονός είναι ότι το WAIS υλοποιεί την αρχιτεκτονική ενός κατανεμημένου συστήματος ανάκτησης πληροφοριών, στο οποίο ένα IS, για παράδειγμα, το Lycos, δημιουργεί μια μηχανή αναζήτησης πάνω από τη μηχανή αναζήτησης ενός άλλου συστήματος - WAIS. Ωστόσο, οι διακομιστές WAIS έχουν τις δικές τους τοπικές βάσεις δεδομένων. Κατά τη μεταφόρτωση εγγράφων στο WAIS, ο διαχειριστής μπορεί να περιγράψει τη δομή των εγγράφων χωρίζοντάς τα σε πεδία και να αποθηκεύσει τα έγγραφα ως ένα ενιαίο αρχείο. Το ευρετήριο WAIS θα αναφέρεται σε μεμονωμένα έγγραφα και τα πεδία τους ως αυτόνομες μονάδες αποθήκευσης, το πρόγραμμα περιήγησης πόρων Διαδικτύου σε αυτήν την περίπτωση πρέπει να μπορεί να λειτουργεί με το πρωτόκολλο WAIS για να έχει πρόσβαση σε αυτά τα έγγραφα.

Γλώσσες ανάκτησης πληροφοριών

Μια τεχνητή γλώσσα σχεδιασμένη για να περιγράφει επίσημα το σημασιολογικό περιεχόμενο εγγράφων, δεδομένων, μεμονωμένων εννοιών ή όρων και να διασφαλίζει τη μετέπειτα αναζήτησή τους σε πίνακες ανάκτησης πληροφοριών. Η επισημοποίηση του λεξιλογίου και η δημιουργία διαφόρων ILP προκαλείται από την ανάγκη εξάλειψης του «πλεονασμού» και της «ανεπάρκειας» της φυσικής γλώσσας για τους σκοπούς της ανάκτησης πληροφοριών, καθώς και η εξάλειψη της συνωνυμίας και της ομωνυμίας που υπάρχουν σε αυτήν, προκειμένου να εφαρμόσει τη «μοναδικότητα» της ανάκτησης πληροφοριών.

Γλώσσα ανάκτησης πληροφοριών(IPL) - μια τεχνητή γλώσσα, που αντιπροσωπεύει ένα σύνολο εργαλείων για την περιγραφή της επίσημης δομής και του περιεχομένου για αναζήτηση (με ευρετηρίαση) κατόπιν αιτήματος του χρήστη.

Δομή

  • Αλφάβητο - ένα σύνολο ορισμένων συμβόλων για τη σύνταξη λέξεων και εκφράσεων. Πολλές γλώσσες χρησιμοποιούν σύμβολα φυσικής γλώσσας για αυτό.
  • Λεξιλόγιο - το σύνολο όλων των λέξεων που χρησιμοποιούνται στη γλώσσα - λεξιλογικές μονάδες.

Ως λεξιλογικές μονάδες του IPN μπορούν να χρησιμοποιηθούν τα ακόλουθα:

1. λέξεις, θραύσματα λέξεων, φράσεις και εκφράσεις οποιασδήποτε φυσικής γλώσσας. 2. Κώδικες και κρυπτογράφηση (αριθμητικά, αλφαβητικά, αλφαριθμητικά) φράσεων, λέξεων και εκφράσεων, που λειτουργούν ως ονόματα των αντίστοιχων κλάσεων. 3. κρυπτογράφηση και κώδικες σε συνδυασμό με λέξεις, φράσεις και εκφράσεις.

  • Η γραμματική είναι ένα σύνολο μέσων και μεθόδων για την κατασκευή, την αλλαγή και το συνδυασμό λεξικών ενοτήτων. Η γραμματική είναι:
1. Μορφολογία - ένα σύνολο μέσων και μεθόδων για την κατασκευή και την αλλαγή λέξεων. 2. Σύνταξη - ένα σύνολο μέσων και τρόπων συνδυασμού λέξεων σε εκφράσεις και φράσεις.

Οι παραδειγματικές σχέσεις, δηλαδή οι σημασιολογικές σχέσεις μεταξύ λεξιλογικών ενοτήτων, χρησιμεύουν για την οργάνωση λεξικών ενοτήτων στην κατασκευή του λεξιλογίου. Αυτές οι σχέσεις καθορίζονται και καθορίζονται στο λεξικό της γλώσσας, με βάση τις ανάγκες ανάκτησης πληροφοριών.

Τύποι και τύποι IEP

Τρόποι προσδιορισμού λεξιλογικών ενοτήτων

I ταξινόμηση

  1. Οι ελεγχόμενες γλώσσες είναι γλώσσες των οποίων το λεξιλόγιο ορίζεται και ελέγχεται χρησιμοποιώντας λεξικά και πίνακες. Περιλαμβάνουν διάφορες ταξινομήσεις. (Universal Decimal Classification, Library and Bibliographic Classification, Dewey Classification).
    1. Γλώσσα των θεματικών επικεφαλίδων (ρουμπρίκες). Με βάση την ιεραρχική ταξινόμηση, κατασκευάζονται συστηματικοί κατάλογοι. Με βάση τη γλώσσα των θεματικών επικεφαλίδων, δημιουργούνται κατάλογοι θεμάτων. Αλφαβητικοί κατάλογοι - μη αυτόματη αναζήτηση.
    2. Περιγραφείς IEL, καθώς και η γλώσσα των λέξεων-κλειδιών - αυτόματη αναζήτηση.
  2. Ανεξέλεγκτο - το λεξιλόγιο δεν ορίζεται από το λεξικό, αλλά χτίζεται με βάση την επιλογή των όρων της φυσικής γλώσσας. Τέτοια PIP χρησιμοποιούνται ευρέως τα τελευταία χρόνια.
  1. Απαρίθμηση όλων των λεξικών μονάδων ISL. Η μέθοδος δεν απαιτεί μεγάλη πνευματική προσπάθεια και η διαδικασία δημιουργίας λεξιλογίου δεν μπορεί να αυτοματοποιηθεί. Το λεξιλόγιο του ILP αποδεικνύεται ότι είναι αυστηρά σταθερό και σε ορισμένες περιπτώσεις δεν επιτρέπει την ακριβή έκφραση του σημασιολογικού περιεχομένου των κειμένων.
  2. Απαρίθμηση τμήματος λεξιλογικών ενοτήτων και καθορισμός κανόνων για το σχηματισμό άλλων λεξικών ενοτήτων από αυτές. Κατέχει μια ενδιάμεση θέση τόσο ως προς τις πνευματικές προσπάθειες όσο και ως προς την αυτοματοποίηση των διαδικασιών.
  3. Καθορισμός κανόνων για την κατασκευή λεξικών ενοτήτων, λέξεων και εκφράσεων φυσικής γλώσσας. Προσφέρεται για πλήρη αυτοματοποίηση, αν και απαιτεί πολλή πνευματική προσπάθεια για τον καθορισμό των κανόνων για τη διαμόρφωση του λεξιλογίου. Ωστόσο, η επιστημονική προσέγγιση στη διαμόρφωση του λεξιλογίου το κάνει πιο τέλειο, εξασφαλίζει ομοιομορφία και μειώνει την υποκειμενικότητα στην κατασκευή του λεξιλογίου.

III Ταξινόμηση όψεων(ταξινόμηση άνω και κάτω τελείας ή ταξινόμηση Ranganathan)

Αυτό είναι ένα σύνολο από πολλές ανεξάρτητες ταξινομήσεις που πραγματοποιούνται ταυτόχρονα για διάφορους λόγους, στους οποίους:

  1. Οι έννοιες παρουσιάζονται ως η τομή ενός αριθμού χαρακτηριστικών (όψη, βλ. πτυχή δομής).
  2. Οι δείκτες ταξινόμησης συντίθενται συνδυάζοντας χαρακτηριστικά πτυχών σύμφωνα με τον τύπο όψεων.

Αυτή η μέθοδος κατασκευής αναπτύχθηκε από τον Ινδό επιστήμονα και βιβλιοθηκάριο Sh. R. Ranganathan (“Classification by Colon”, 1933). Η ταξινόμηση βασίζεται στη συνήθη αντιστοίχιση ενός αντικειμένου σε διαφορετικές κατηγορίες (ορισμός ενός συνόλου και των στοιχείων του).

Η σειρά σύνταξης λεξικών ενοτήτων

  1. Μη συντεταγμένες γλώσσες - αυτές που δεν επιτρέπουν τον συντονισμό των λεξιλογικών τους μονάδων (δεν υπάρχει σύνδεση μεταξύ τους) είτε στη διαδικασία ευρετηρίασης είτε στη διαδικασία αναζήτησης. (το σύστημα τακτοποίησης βιβλίων στο ταμείο της βιβλιοθήκης, σύμφωνα με τους αριθμούς απογραφής).
  2. Τα συντονισμένα ISL είναι γλώσσες στις οποίες συνδέονται λεξιλογικές μονάδες, συντονισμένες μεταξύ τους είτε κατά τη διαδικασία ευρετηρίασης είτε κατά τη διαδικασία χρήσης.
    1. Προσυντονισμένοι - οι σύνδεσμοι μεταξύ των λεξιλογικών ενοτήτων δημιουργούνται πριν από την αναζήτηση.
    2. Μετασυντεταγμένα - όταν οι σύνδεσμοι μεταξύ των λεξιλογικών ενοτήτων καθορίζονται μόνο κατά τη διάρκεια της αναζήτησης.

Τύποι IEP ανά πεδίο εφαρμογής (περιοχή) εφαρμογής

  1. Επικοινωνιακό (σε όλο το σύστημα) που έχει σχεδιαστεί για να διασφαλίζει την αλληλεπίδραση μεταξύ διαφόρων (πληροφοριών, βιβλιοθήκης, κ.λπ.) συστημάτων (συμπεριλαμβανομένων των διανεμημένων ανά πολιτειακή, νομαρχιακή ή εδαφική υπαγωγή).
  2. Τοπικό (εσωτερικό), που προορίζεται για χρήση σε ξεχωριστό σύστημα.
  3. Εξωτερικό, χρησιμοποιείται σε άλλα συστήματα και έχει σχεδιαστεί για να αλληλεπιδρά μόνο με αυτά.

Τύποι σχέσεων στο ILP

Συνταγματικές Σχέσεις στο ILP- γραμμικές σχέσεις μεταξύ των λεξιλογικών μονάδων του ILP, που καθορίζονται απευθείας όταν χρησιμοποιούνται. Ο τρόπος έκφρασης των συνταγματικών σχέσεων είναι γραμματικά μέσα, τα οποία είναι: τσάντα, γραμματική θέσης, δείκτες ρόλων, δείκτες σύνδεσης, γραμματική λογικών τελεστών. Τα τυπικά μέσα έκφρασης συνταγματικών σχέσεων είναι η ταύτιση, τα διαχωριστικά σημεία, καθώς και τα σημεία προσκόλλησης.

  1. Γραμματική τσαντών- ένας από τους τρόπους έκφρασης συνταγματικών σχέσεων στο ILP, ο οποίος συνίσταται σε μια απλή απαρίθμηση λεξικών ενοτήτων που περιλαμβάνονται σε μία εικόνα αναζήτησης ή συνταγή αναζήτησης. Η σειρά των λεξιλογικών μονάδων δεν έχει σημασία. Η γραμματική τσαντών χρησιμοποιείται στα λεξικά ISL.
  2. Γραμματική θέσης- ένας από τους τρόπους έκφρασης συνταγματικών σχέσεων στο ILP, ο οποίος συνίσταται στην καθιέρωση μιας αυστηρής σειράς των λεξιλογικών μονάδων που περιλαμβάνονται σε μία εικόνα αναζήτησης. Στην ταξινόμηση ILP, εκδηλώνεται με τη χρήση ενός τύπου ταξινόμησης για συστηματοποίηση και του τύπου των επικεφαλίδων θεμάτων για υποκειμενοποίηση, στο ILP του τύπου συντεταγμένων - στη χρήση της μεθόδου τυπικών φράσεων, της μεθόδου όψης παρουσίασης πληροφοριών.
  3. Προσδιοριστές ρόλων- ένας από τους τρόπους έκφρασης συνταγματικών σχέσεων στο ILP, που χαρακτηρίζει τις λογικές συνδέσεις μεταξύ λεξιλογικών μονάδων και διευκρινίζει τη σημασιολογική λειτουργία (ρόλο) κάθε λεξιλογικής ενότητας στην εικόνα αναζήτησης. Οι δείκτες ρόλων χρησιμοποιούνται κυρίως στο λεξιλόγιο ISL και δημιουργούνται σε σχέση με συγκεκριμένους κλάδους γνώσης. Στην ταξινομική ILP, η λειτουργία των δεικτών ρόλου εκτελείται, για παράδειγμα, από γενικούς καθοριστικούς παράγοντες στο (UDC). Οι δείκτες ρόλων καθιστούν δυνατή τη μείωση του εύρους της έννοιας που υποδηλώνεται από μια λεξιλογική ενότητα, γεγονός που καθιστά δυνατή τη διασφάλιση μεγαλύτερης ακρίβειας στην ανάκτηση πληροφοριών. Εκφράζεται με γράμματα και αριθμούς.
  4. Δείκτες επικοινωνίας- ένας από τους τρόπους έκφρασης συνταγματικών σχέσεων στο ILP, που υποδεικνύει την παρουσία λογικής σύνδεσης μεταξύ λεξιλογικών μονάδων και εξαλείφοντας τον ψευδή συνδυασμό τους στην εικόνα αναζήτησης. Οι δείκτες συνδέσμων χρησιμοποιούνται ευρέως στα λεξικά ISL και εκφράζονται με σύμβολα, γράμματα ή αριθμούς. Στα ILPs ταξινόμησης, η λειτουργία των δεικτών ζεύξης εκτελείται από το σύμβολο της αγκύλης. Οι δείκτες σύνδεσης σάς επιτρέπουν να εξαλείφετε τον θόρυβο πληροφοριών και να διασφαλίζετε την ακρίβεια της ανάκτησης πληροφοριών.
  5. Γραμματική των λογικών τελεστών- ένας από τους τρόπους έκφρασης συνταγματικών σχέσεων στο ILP, ο οποίος επιτρέπει τη διεξαγωγή λογικού πολλαπλασιασμού, πρόσθεσης και αφαίρεσης λεξικών μονάδων ILP κατά την κατασκευή μιας συνταγής αναζήτησης. Η γραμματική των λογικών τελεστών χρησιμοποιείται στα λεξικά ISL. Χρησιμεύει για την αποσαφήνιση του όγκου των εννοιών που εκφράζονται από λεξιλογικές μονάδες προκειμένου να διασφαλιστεί μεγαλύτερη ακρίβεια στην ανάκτηση πληροφοριών.

Σημασιολογικές Σχέσεις- σχέσεις μεταξύ των εννοιών στο λεγόμενο. «σημασιολογικά δίκτυα». Διακρίνω:

  • Γλωσσική (αντίστοιχη με τη σχέση των λέξεων σε μια πρόταση) σχέση
  • Σχέσεις συνόλων-θεωρίας.
  • λογικές σχέσεις.

Παραδειγματικές σχέσεις στο ILP- σημασιολογικές λογικές σχέσεις μεταξύ των λεξιλογικών ενοτήτων του ILP, οι οποίες δεν εξαρτώνται από το πλαίσιο στο οποίο χρησιμοποιούνται. Διάκριση μεταξύ ισχυρών και αδύναμων παραδειγματικών σχέσεων.

Η σφαίρα των συστημάτων ανάκτησης πληροφοριών στη φιλολογία. Βάση δεδομένων πληροφοριών και έρευνας "Ρωσικός Σαίξπηρ"

«Τα έργα ενημέρωσης στο χώρο της φιλολογίας θα πρέπει να στοχεύουν στη δημιουργία καινοτόμο προϊόν, επιστημονικά συστήματα και δίκτυα πληροφοριών και τηλεπικοινωνιών, ένα ενιαίο σύστημα επιστημονικής γνώσης και τεχνολογιών, για τη δημιουργία κάποιων στοιχείων τεχνητή νοημοσύνηκατά τη δημιουργία έμπειρων συστημάτων και βάσεων γνώσης, δικτύων πληροφοριών για συλλογική χρήση με μοναδικούς επιστημονικούς πόρους».

Επιστημονικά καθήκοντα: "Βάση δεδομένων πληροφοριών και έρευνας "Ρωσικός Σαίξπηρ"

  • δημιουργία της πιο εκτεταμένης βιβλιογραφίας για το θέμα «Ρωσικός Σαίξπηρ», η οποία θα περιλαμβάνει μια σειρά από ενότητες («Μεταφράσεις των έργων του Σαίξπηρ στα ρωσικά: συλλεγμένα έργα και συλλογές, μεμονωμένα έργα», «Κριτικά έργα αφιερωμένα στο έργο και τη ζωή του Σαίξπηρ (το πρόβλημα της συγγραφής, κριτική επί μέρους έργων, Σαίξπηρ και θέατρο, ιστορία των σπουδών του Σαίξπηρ, Σαίξπηρ και ξένη λογοτεχνία, Σαίξπηρ στη Ρωσία, Πούσκιν και Σαίξπηρ, παρωδίες έργων κ.λπ.) έρευνα και ανάπτυξη προβλημάτων που σχετίζονται με το λήμμα του Σαίξπηρ στη ρωσική κουλτούρα, η διαμόρφωση της ρωσικής μεταφραστικής θεωρίας (συγγραφή άρθρων και μονογραφιών.
  • η χρήση των πόρων του Διαδικτύου στη διδασκαλία φιλολογικών κλάδων, μεθόδων μετάφρασης, ιστορίας του θεάτρου, κινηματογράφου, παγκόσμιας καλλιτεχνικής κουλτούρας, ανάπτυξη της πρωτότυπης χρήσης πόρων του Διαδικτύου στη διδασκαλία φιλολογικών κλάδων, μέθοδοι μετάφρασης, ιστορία του θεάτρου, κινηματογράφος, παγκόσμια καλλιτεχνική κουλτούρα, ανάπτυξη ενός πρωτότυπου ειδικού μαθήματος "Ρωσικός Σαίξπηρ" .

Ο «Κόσμος του Σαίξπηρ» έχει 3 βασικές κατευθύνσεις

  • προετοιμασία και θέση σε λειτουργία σύστημα πληροφορίωνκαι ιστοσελίδα
  • σχηματισμός του περιεχομένου πλήρους κειμένου της βάσης δεδομένων πληροφοριών και έρευνας "Ρωσικός Σαίξπηρ",
  • ανάπτυξη διαφόρων τρόπων προβολής πληροφοριών, ανάκτηση πληροφοριών χαρακτηριστικών, αναζήτηση πλήρους κειμένου σε δωρεάν λεξιλόγιο τόσο στα ρωσικά όσο και στα αγγλικά.

Πυρήνας βάσης δεδομένων

Έγκριση της βάσης δεδομένων πληροφοριών και έρευνας "Russian Shakespeare"

Η βάση πληροφοριών και έρευνας "Russian Shakespeare" είναι ένα είδος κέντρου πληροφοριών για τον William Shakespeare, τα έργα του, τα προβλήματα μελέτης του έργου του. Αφενός, η βάση δεδομένων παρέχει στον επισκέπτη την ευκαιρία να δει τα έργα του ίσως πιο διάσημου Άγγλου συγγραφέα συγκεντρωμένα σε ένα μέρος, και αφετέρου προσφέρει μια σχετικά ευρεία κάλυψη έργων από διαφορετικές κατευθύνσεις, μονόδρομος ή άλλος που συνδέεται με το έργο του W. Shakespeare. Ο πόρος περιέχει κυρίως κείμενα εγχώριων ερευνητών και συγγραφέων (που, καταρχήν, συσχετίζεται λογικά με το όνομα της βάσης δεδομένων).

Τα έργα του W. Shakespeare βρίσκονται εδώ σε διαφορετική μορφή (ενότητα: "Σε ρωσικές μεταφράσεις"), ανάλογα με το μέγεθος, ορισμένα από αυτά βρίσκονται απευθείας στον ιστότοπο (για παράδειγμα, σονέτα, η μετάφραση των οποίων συνοδεύεται από το πρωτότυπο Έτσι, και τα δύο κείμενα βρίσκονται σε μέγιστη προσβασιμότητα ), το μέρος (μερικά έργα) παρουσιάζεται σε μορφή pdf. Οι μεταφράσεις που παρουσιάζονται ανήκουν σε διαφορετικούς συγγραφείς και εποχές. Τα πρώτα μεταφρασμένα κείμενα έργων στον πόρο χρονολογούνται από το 1899 (για παράδειγμα, «Άμλετ» στη μετάφραση του A. Kroneberg, «Romeo and Juliet» στη μετάφραση του D. Mikhalovsky, «Richard III» στη μετάφραση του A. Druzhinin, κ.λπ.), και διατηρούν το αρχικό προεπαναστατικό στυλ.

Σε άλλη ενότητα - «Στην επιστημονική και θεατρική κριτική», υπάρχουν κατάλογοι επιστημονικών μονογραφιών ερευνητών του έργου του W. Shakespeare, επιστημονικές συλλογές, πρόλογοι και εισαγωγικά άρθρα σε εκδόσεις διαφορετικών εποχών, κριτικές βιβλίων για τον συγγραφέα και τα έργα του, παραστάσεις (Επιπλέον, ως κεντρικά θέατρα της Ρωσίας , και μικρά, επαρχιακά), σχολιασμοί για εξερχόμενες εκδόσεις.

Στον πόρο μπορείτε να βρείτε δημιουργικά έργα σχετικά με τα θέματα των έργων του Σαίξπηρ, καθώς και να αντικατοπτρίζουν την αντίληψη της προσωπικότητας του ίδιου του συγγραφέα (Ενότητα: "Στο πρωτότυπο έργο"). Πρόκειται για διάφορα έργα εμπνευσμένων αναγνωστών, θαυμαστών και απλά όχι αδιάφορων: ποιήματα, σχέδια, φωτογραφίες, έργα εφαρμοσμένης τέχνης. Παρουσιάζει επίσης το έργο των συγχρόνων του Σαίξπηρ και αποσπάσματα από αυτόν / από αυτόν / για αυτόν.

Ένα από τα πιο χρήσιμα για τους επιστημονικούς ερευνητές του έργου του W. Shakespeare είναι η ενότητα "Bibliographia", η οποία περιέχει έναν κατάλογο έργων και έργων στους ακόλουθους τομείς: μεταφράσεις και προσαρμογές έργων στα ρωσικά από το 1748, ιστορία των σπουδών του Σαίξπηρ (συμπεριλαμβανομένου μεταφράσεις και αξιολόγηση του θεατρικού συγγραφέα σε διαφορετικές περιόδους (Διαφωτισμός) και σε διαφορετικές χώρες(ΗΠΑ, Δυτική Ευρώπη, Γερμανία), η ρωσική κριτική του W. Shakespeare του 18ου-19ου αιώνα, το πρόβλημα της συγγραφής, η επίδραση του W. Shakespeare στη λογοτεχνία άλλων χωρών, W. Shakespeare και A. Pushkin, καθώς και μυθιστόρημακαι δημοσιογραφία (παρωδίες, φειλέτες, χιουμορίσκες βασισμένες σε έργα, κριτικές του έργα τέχνηςγια τον συγγραφέα). Μια άλλη χρήσιμη ενότητα θα είναι: «Personalia», που δεν θα σας αφήσει να μπερδευτείτε με τα πολυάριθμα ονόματα των συγχρόνων του Σαίξπηρ και εκείνων που μελέτησαν και μελετούν το έργο του πολύ μετά τη ζωή του. Και το «Σαίξπηρ στο Διαδίκτυο», το οποίο παρέχει συνδέσμους σε ρωσόφωνους, ουκρανόφωνους και αγγλόφωνους πόρους.

Πρέπει να σημειωθεί ότι όλες οι λίστες αναφορών παρέχονται με δεδομένα εξόδου, γεγονός που διευκολύνει σημαντικά την αναζήτηση των απαραίτητων πληροφοριών.Αξίζει επίσης να σημειωθεί ότι, παρά τον σημαντικό όγκο πληροφοριών, η διεπαφή των πόρων γίνεται αρκετά βολική και λογική, η οποία διευκολύνει επίσης την εργασία με τα δεδομένα που περιέχονται στη βάση δεδομένων.

Οι προγραμματιστές έθεσαν ως καθήκον τους να δημιουργήσουν μια εκτενή βιβλιογραφία σχετικά με το θέμα "Ρώσος Σαίξπηρ" και να εισαγάγουν τη βάση στη διδασκαλία σε διάφορους τομείς. Φυσικά, ο πόρος αποδείχθηκε ότι απευθυνόταν λίγο πολύ σε φιλολόγους και κριτικούς λογοτεχνίας. Ωστόσο, εάν οι πληροφορίες, ας πούμε, σχετικά με την αξιολόγηση εξερχόμενων παραστάσεων και ταινιών, αναπληρωθούν, τότε ο πόρος (ως πηγή πληροφοριών) θα γίνει πιο χρήσιμος για άλλους τομείς, σε αυτήν την περίπτωση, ειδικούς του θεάτρου και εκπροσώπους δημιουργικών ειδικοτήτων: σκηνοθέτες , σεναριογράφοι και ηθοποιοί.

Φόρτωση...Φόρτωση...