TEXTEC Software ist

                                                

Die linguistic engine EXTRAKT ist in dem Suchportal LexiQuo integriert und sorgt für optimale Suchergebnisse.

LexiQuo (deutsch)
 

Mehr über EXTRAKT

EXTRAKT ist die "Linguistic Engine", die eine (morpho-syntaktische) Analyse verschiedener (europäischer) Sprachen durchführen kann.

 

Das heißt im Wesentlichen, die Grundform(en) eines Wortes wird/werden erkannt oder alle Flexionsformen werden aus der Grundform abgeleitet.

Eine Grundform ist eine Wortform, die für die verschiedenen Formen desselben Wortes steht. Beispielsweise ist Haus die Grundform für Haus, Hauses, Hause, Häuser und Häusern. Gehen ist die Grundform für alle Formen dieses Tätigkeitsworts, gehen steht also für gehe, gehst, geht, ging, gegangen, etc.

Für das Deutsche haben wir ein Wörterbuch mit mehr als 1,8 Millionen Einträgen aufgebaut. Hinzu kommen Spezialwörterbücher, die z.B. nicht-umgelautete Formen enthalten (Haeuser statt Häuser, ca. 600.000 Wörter), ein Wörterbuch mit Zerlegungen von deutschen Komposita (mehr als 1,5 Millionen Einträge - das sind ca. 440.000 Grundformen). Das bedeutet, daßmewhr als 3 Mio. deutsche Wortformen vorhanden sind. Für die anderen Sprachen gibt es ebenfalls Spezial-Wörterbücher, etwa ein Wörterbuch mit französischen Einträgen, in denen die Akzentzeichen fehlen (also methode für méthode).

Grundformen können von einer in eine andere Sprache übersetzt werden, so daß eine mehrsprachige Suche ermöglicht wird. EXTRAKT verfügt zur Zeit über einen Bestand von zweisprachigen Wörterbüchern, die jeweils 60.000 bis 240.000 Einträge enthalten.


Als Spezialwörterbücher sind lexikographische Bestände aus den Bereichen Wirtschaft, Umwelt und Psychologie verfügbar.

Für das Deutsche haben wir ein Wörterbuch mit 150.000 Begriffen aus Wortfamilien und ca. 120.000 Synonymen erstellt.

 

Ein Spezialfall ist das Maskulin-Feminin-Wörterbuch, das eine Relation zwischen maskulinen und femininen Formen enthält. Dadurch wird zu einer weiblichen Form auch die männlich Grundform geliefert, etwa "Botschafterinnen" liefert neben Botschafterin auch Botschafter.

Der mehrsprachige EUROVOC - Thesaurus der Europäischen Kommission ergänzt das Angebot.

Private Wörterbücher können vom Kunden selbst angelegt und sehr leicht in das System eingefügt werden.



EXTRAKT wurde mit der Generierungsfunktion GENERATE erweitert. Damit können die Varianten eines gegebenen Wortes erzeugt werden. Also kann das Wort Haus (Nominativ Singular) eingegeben werden und GENERATE erzeugt daraus die flektierten Formen Hause, Hauses, Häuser und Häusern - und wenn die Umlautwörterbücher zugeschaltet sind noch die Formen Haeuser, Haeusern.

Auch für die anderen Sprachen ist diese Funktion verfügbar. Dabei werden die selben Wörterbücher benutzt, die auch die Funktionen zur Analyse benutzen.


EXTRAKT existiert als einfache C++-DLL und als TCP/IP-Server (EXTRAKT - Server).

Die C++-DLL kann direkt in Client-Programme eingebunden werden.

Mit dem EXTRAKT - Server kommuniziert der Client über ein einfaches Protokoll. Anfragen können direkt in diesem Protokoll als Strings formuliert werden.



TEXTEC bietet zudem spezielle Schnittstellen-Module für verschiedene Plattformen, die die Kommunikation mit dem Server vereinfachen, so daß der Anwender sich nicht mit dem Aufbau des Protokolls auseinandersetzen muß.



Zum Kennenlernen bieten wir einen EXTRAKT-Server an, der über das Internet genutzt werden kann. Damit kann die Leistungsfähigkeit der linguistischen Komponente getestet werden.
Anfragen bitte richten an info (at) textec.de


EXTRAKT ist verfügbar für Windows-, Linux- oder Solaris-Systeme. Eine Portierung auf HP-Unix ist ebenfalls vorhanden.

Die Wörterbücher sind ohne Neukompilierung auf allen diesen Systemen lauffähig.

Eine SOAP-Schnittstelle ist im Projekt CULTOS für EXTRAKT entwickelt worden.

Ab Version 3.16 besitzt EXTRAKT eine JSON - Schnittstelle.

 

Für die Version 5.0 existiert eine JAVA-Komponente mit den Funktionen: INDEX und GENERATE.

Aktuelle Version ist 5.9 Release: b01 (Dezember 2016)

Das System ist leicht zu konfigurieren, um es an besondere Anwendungen anzupassen: so können beliebige (auch private) Wörterbücher hinzugefügt werden. Es können Synonym - Wörterbücher und Thesauri eingebunden werden. Wörterbücher können hierarchisch oder nicht-hierarchisch definiert werden. Im Request, der an EXTRAKT geschickt wird, kann angegeben werden, welche Wörterbücher eingeschlossen oder ausgeschlossen werden sollen.

 

Druckversion Druckversion | Sitemap
© 1995-2017 TEXTEC Software Dr. Erwin Stegentritt

Diese Homepage wurde mit 1&1 MyWebsite erstellt. Probieren Sie es selbst aus!