Diese Seiten sind, wenn möglich, in Deutsch.

bildEnglish pages here!


bild
ABC-System GmbH
Quellenweg 7

65520 Bad Camberg
Telefon: +49-(0)6483/91 10 80
Telefax: +49-(0)6483/91 10 82

Unternehmen

Wer wir sind
Was wir anbieten
Partner
Referenzen
Technik
 

Neuigkeiten

Werkzeuge
Linguistik
 

Lösungen

MorphServer
Lösungen
Thesauruswerkzeuge Textanalysen
Entwicklung
 

Beratung

Dokumente
Beratung
Internet
 

Weiterbildung

BASIS, LARS, mySQL
Schulungen
Thesauri, Linguistik
Solaris, AIX, LINUX
 

 

 

 

Thesauri:

   

Ein Thesaurus dient nicht nur als Hilfsmittel bei der Deskribierung oder der anschließenden Suche. Ein Thesaurus ist auch ein wertvolles Bestimmungswörterbuch für den Sprachgebrauch in einem Fachbereich oder einem Unternehmen/Institution. Dieser Aspekt bedingt, dass die Pflege eines Thesaurus, der Begriff aus dem griechischen bedeutet »Schatz«, eine ständige Auseinandersetzung mit der Definition und dem Selbstverständnis eines Bereiches mit sich bringt. Dies führt dazu, dass ein gut gepflegter »Schatz« mit der Zeit immer wertvoller wird, da die in ihm enthaltenen Zusammenhänge die Entwicklung und den Stand des Wissens in diesem Fachbereich wiederspiegeln.

Darüber hinaus sind zur Zeit verschiedene beschreibende Thesaurusbegriffe im Umlauf, z. B. semantische oder pragmatische Thesauri. Diese Begriffe versuchen die zusätzlichen Möglichkeiten der Thesaurusarbeit näher zu fassen. Beispiele hierzu liefert der EUROVOC, der Thesaurus der europäischen Gemeinschaft in 9 Amtssprachen. Dieser basiert auf einem Micro-Thesauri genannten Splitting der verschiedenen Interessenspfade, z. B Ökologie, Soziologie, Politologie.

Weitere Ansätze, die in eine ähnliche Richtung gehen sind in der Facettierung von Begriffen zu sehen. Als Beispiel wird der Eintrag »Kunstdünger« in einem Zweig »Ertragsverbesserung« oder im Zweig »Ökologischer Landbau« sehr unterschiedlich bewertet.

Somit kann ein Thesaurus neben seinen Funktionen als Validierungshilfsmittel weitere wichtige Funktionen für die Suche oder die generelle Information in einem Fachgebiet liefern. Ein suchender Benutzer kann den Begriffsraum mit allen Hierarchiezusammenhängen, Nebeneinträgen, Verweisen, usw. erkennen und somit auf Bereiche treffen, die ihm ansonsten entgangen wären. Andererseits kann er sich auch einen generellen Überblick über einen Themenbereich nur durch Blättern im Thesaurus verschaffen, wenn dieser richtig aufgebaut und gepflegt ist.

Thesauruswerkzeuge der ABC-System GmbH:

Dieses Werkzeug verwaltet in einer Datenbank alle Einträge und überwacht die Verbindungen untereinander.

Besonderes Augenmerk wurde hier insbesondere auf die Verwendung von Austauschformaten gelegt um ein einfaches Laden und Entladen vorhandener Thesauri und die Integration in bestehende Systeme zu unterstützen.

2. ABC Thesaurus-Control

Mittels dieses Werkzeuges können die erstellten Thesauri bei in jede Applikation integriert werden, die mit JAVA oder JavaApplets kommunizieren kann.

In einer Interneterfassungsmaske kann z. B. ein Feld mit diesem Applet verknüpft werden. Somit steht dem Benutzer der gesamte Leistungsumfang des Thesaurus zur Verfügung. Er kann innerhalb des Baumes blättern; er kann sich die hinterlegten Zusatzinformationen (Bemerkungen, Verknüpfungen, usw.) ansehen; er kann suchen und er kann die Begriffe sammeln, die er schließlich zur Beschreibung seines Dokumentes in die Erfassungsmaske übertragen möchte.

Das gleiche kann für die Suche oder als generelle Zugriffsarchitektur für Retrievalanwendungen eingesetzt werden.

Unabhängiges Systemkonzept:

Ein EDV-Projekt muß heute die gängigen Plattformen berücksichtigen, darf sich aber nicht zu eng an eine »Welt« anlehnen. Hierdurch wird gewährleistet, dass das System von möglichst vielen Anwendern einsetzbar ist und dass interessante Entwicklungen in anderen Umgebungen einbezogen werden können.

Ein unbestreitbarer Nachteil ist allerdings der erhöhte Entwicklungs- und Pflegeaufwand. Dieser wird unserer Meinung nach aber durch die Möglichkeit der Nutzung verschiedener vorgefertigter Komponenten wettgemacht.

Breit verfügbare Werkzeuge:

Für die Entwicklung wird auf bewährte Komponenten aus dem Open Source Bereich zurückgegriffen. Hierzu gehört die SQL-Datenbank mySQL, Perl als Scriptsprache und Linux als Entwicklungsumgebung. Standardmäßig wird Apache als WEB-Server verwendet, über die Integrationsschnittstellen für Perl und JAVA läuft das System aber auch mit Netscape und Microsoft WEB-Servern.

Aus dem kommerziellen Bereich setzen wir JAVA und Solaris der Firma SUN ein. Die Portierung auf HP, AIX und NT ist durch die Wahl der Werkzeuge ebenfalls ohne Probleme möglich.

Parametrisierbarkeit:

Alle Einstellungen für das Gesamtsystem werden in Textdateien hinterlegt und verwaltet. Dies folgt dem System der Windows INI- oder der UNIX CONFIG-Dateien. Hierdurch sind an einem zentralen Platz alle Einstellungen in Klarschrift lesbar aufzufinden.

Wenn immer möglich sollten Entscheidungen als Parameter hinterlegt werden.


Standardbasierte Entwicklung:

Die Entwicklung erfolgt wie bereits erwähnt mit Standardwerkzeugen und gemäß anerkannter Entwicklungsregeln. Durch den Einsatz von JAVA wird ein objekt-orientiertes Modell zum Einsatz kommen.

Integration mit anderen Systemen:

Ein Thesaurussystem wird selten als Stand-Alone-System eingesetzt. Hieraus ergibt sich die Notwendigkeit der Unterstützung verschiedenster Import- und Export-Formate. Hierfür benötigt man eine möglichst flexible Scriptsprache, die es zum einen ermöglicht bekannte Standardformatfilter mitzuliefern, zusätzlich aber noch erlaubt weitere Formate selbst zu definieren oder die Standardformate anzupassen. Wir haben uns deshalb für Perl entschieden, das neben seiner Mächtigkeit auch durch seine weite Verbreitung eine schnelle Lösung dieser Probleme bietet.

Unterstützung verschiedenster Austauschformate:

Das Thesaurussystem akzeptiert standardmäßig Input-Formate im BASIS TM-Format und im INDEX Format. Für diese Formate werden auch Export-Filter zur Verfügung gestellt. Für BASIS wird ebenfalls ein Sub-System bereitgestellt, dass notwendige Änderungen in den thesauruskontrollierten Datenbanken zeitgesteuert durchführt.

Verwendung bereits vorhandener Ressourcen (In-House/ extern):

Ein wichtiger Punkt für die Thesaurusarbeit ist, dass der einzelne Term oder Thesaurusast nicht isoliert betrachtet wird. Hierfür bietet das System verschiedene Arten der Rückkopplung. Geplant sind

- Anbindungen an In-House-Systeme (wo wurde der Begriff bereits verwendet)- Einbindung von häufigen Benutzerfragen (welche Begriffe werden gesucht)- Anbindung an externe Systeme, Thesauri oder Wörterbücher zur Vorschlagsgewinnung

















     

   © 2004 by ABC-System GmbH •  schumacher@abc-system.com