Die steigende Bedeutung von Funktionen, die über das reine Retrieval
von Daten und Texten hinausgeht wird mehr und mehr erkannt. Die Delphi Consulting Group, Inc. hat dies recht drastisch dargestellt:
Improving query quality is an essential requirement for the acceptance of knowledge
retrieval systems. Systems without this type of query enhancement will
rapidly be eliminated from the market space, since they have proven
in practice to INCREASE the amount of time knowledge workers spend searching for information.
The inaccuracy of typical search results lists is today a significant
barrier to the adoption of knowledge management strategies.
Diese Herausforderung haben wir angenommen und stellen die Produktfamilie ABC MorphServer 2.5 vor:
1. Internet-Variante
Für jeden Suchbegriff erfolgt eine einfache Generierung von Flexionen (Wortformen). Zum Beispiel wird bei Eingabe von "Baum" nach der Generierung auch nach "Bäume", "Baumes", etc. gesucht. Dies verbessert die Suche mit ungepflegten Inidices (es wurden automatisch alle Wortformen so, wie sie im Text enthalten sind, indexiert).
2. Qualitäts-Variante
Bei dieser Variante werden gepflegte Indices erzeugt. Das heisst, alle im Text vorkommenden Wortformen werden wie folgt bearbeitet:
- Reduzierung auf die Grundform (Bäder wird Bad)
- Komposita werden zerlegt (Badeanstalten wird Badeanstalt, Bad, Anstalt)
- Umlautauflösung (Österreich wird auch Oesterreich im Index)
- Trennungen am Zeilenende werden rückgängig gemacht
- transitiven Verbindungen werden aufgelöst (Bade- und Saunabereich)
- Erkennung von Mehrwortbegriffen ('juristische Person' ist ein Indexbegriff')
Die Suche innerhalb dieser gepflegten Indices mit korrespondierender Bearbeitung der
Suchanfragen bewirkt z.B., dass Dampfschiff ohne Maskierungen auch im
Donaudampfschiffahrtskapitän gefunden wird.
3. Pflegekomponenten
Für die Erzeugung von gepflegten Inidces stehen eigene Wörterbücher zur Verfügung. Ausserdem kann ein individueller Wordschatz, oder eine abweichende Verwendung von Worten durch die Pflege der Wörterbücher abgebildet werden. Bevorzugte Schreibweisen für die Indexierung und/oder die Zerlegung können ebenfalls festgelegt werden.
4. Wartungskonzept
Die Pflege und
Weiterentwicklung wird durch vierteljährliche Updates und
Einarbeitung der in den verschiedenen Anwendungen als unbekannt
identifizierten Wörter sichergestellt. Die Pflege der
Wörterbücher erfolgt durch das linguistisch geschulte
Personal des Centrums für Informations- und Sprachverarbeitung
(CIS) an der Universität München
Diese Produkte stehen auf allen UNIX-Plattformen und unter Windows NT zur
Verfügung.
Weitere
Informationen zu unserem Dienstleistungsangebot für die Analys
mittels unserer ABC
MorphServer Dienstleistungen...
|