TEXTEC Software ist

                                                

Die linguistic engine EXTRAKT ist in dem Suchportal LexiQuo integriert und sorgt für optimale Suchergebnisse.

LexiQuo (deutsch)
 

Aktuelles

Mehr deutsche Wörter

 

Das deutsche Wörterbuch ist wieder ein wenig angewachsen: nun sind es mehr als 3 Millionen Einträge.

Der Zuwachs besteht insbesondere aus technischen Begriffen, wie Clausthalit, Silizifikation oder Nesosilikat. Zu den Komposita gehörne Formen wie martensitaushärtend, langbrennweitig oder Bendixmessgerät.

 

-10.12.2016-

 

 

Positionen

 

Will man im Analyse-Resultat die Positionierung des Lemmas im Originaltext so kann man dies durch einen zusätzlichen Parameter POS anfordern. Im Resultat erscheint dann ein Element, das die Werte der Anfangs- und Endposition enthält.

 

-07.06.2016-

 

 

Links

 

Um in Texten Links auf Internet-Seiten und Mail-Adressen zu erkennen, wurde eine neue linguistische Klasse eingeführt (LNK für Link), die in der INDEX2-Funktion genutzt wird.

 

Es können dadurch Verweise auf Internet-Seiten, etwa "www.textec.de" oder e-mail-Adressen erkannt und mit der Klasse LNK versehen werden.

 

Durch die Möglichkeit, die Resultate nach Wortklassen zu filtern, ist es auch möglich, aus Dokumenten lediglich diese Verweise herauszuziehen.

 

-03.09.2015-

 

 

Maskulin - Feminin

 

"Maskulin-Feminin" (Masculin-Féminin) ist ein Film von Jean-Luc Godard, in es um die Liebesbeziehungen junger Franzosen geht. Die Beziehungen zwischen den Geschechtern ist auch Gegenstand des neuen Maskulin-Feminin-Wörterbuchs von EXTRAKT.

 

Die Bezeichnungen für männliche Personen und Berufe werden den weiblichen Entsprechungen zugeordnet. So steht ein Minister in (grammatischer) Relation zur Ministerin, ein Graf zur Gräfin, ein Koch zur Köchin, ein Organist zur Organistin und ein Wissenschaftler zur Wissenschaftlerin - und umgekehrt.

Dadurch können von der maskulinen Form auch auf die femininen Pendants geschlossen werden und sie können bei der Suche auf vielfältige Weise genutzt werden.

 

Das Maskulin-Feminin-Wörterbuch enthält ca 160.000 Worteinträge und kann mit allen linguistischen Funktionen von EXTRAKT genutzt werden. 

 

 

 

 

-16.08.2015-

 

 

LexiQuo


haben wir weiter entwickelt. Nun werden das Niederländische und das Portugiesische durch unsere Linguistik unterstützt.

Die sprachlichen Varianten der Suchwörter werden auf Wunsch in getrennten Fenstern angezeigt.

Dazu gehören die Synonyme (bedeutungsverwandte Begriffe), die Wortfamilien oder Ableitungen (formal verwandte Begriffe), die Übersetzungen in andere Sprachen (Deutsch, Englisch und Französisch) und lautlich ähnliche Begriffe. Letztere sind Wörter (vor allem Namen), die ähnlich ausgesprochen werden können als der/die Suchbegriff/e. Hierzu wird unser phonetischer Server TRAPHO eingesetzt.

 

 

 

 

-09.02.2015-

 

 

LexiQuo

 

In die Meta-Suche mit der linguistischen Anreicherung durch EXTRAKT wurde die Suchmaschine

QWANT hinzugefügt.

QWANT führt einen eigenen Index, bewahrt die Anonymität der Suche und verfügt über eine neuartige Präsentation der Ergebnisse.

An Qwant ist unser Partner Pertimm beteiligt. 

 

Standardmäßig werden nun die Resultate von BING angezeigt. Das liegt daran, dass BING es erlaubt, sie in einem eigenen "frame" anzuzeigen, so dass nicht ein neues Fensetr geöfnet werden muss. Das hat nun zur Folge, dass die Bing-Resultate stest sichtbar sind und alternative Resultate einer anderen Suchmaschine darüber geblendet werden.

 

 

 

 

-06.01.2015-

 

 

Wörterbücher 5.0

 

Die neue Wörterbuch-Version enthält Erweiterungen für die Sprachen Deutsch und Niederländisch.

 

  • Das deutsche Wörterbuch enthält nun 2.366.000 Einträge, davon 437.000 Komposita-Lemmata.
  • Das niederländische Wörterbuch enthält nun 132.000 Einträge, davon 12.000 Komposita-Lemmata.

An der Anreicherung des niederländischen Wörterbuchs wird weiter gearbeitet, so daß diese Komponente nicht nur für die DetectLanguage-Funktion, sondern auch für die INDEX und ANALYZE-Funktionen eingesetzt werden kann.

-21.11.2014-

 

 

Korfs Brille [ oder ein frühes SUMUP ]

 

Korf liest gerne schnell und viel;

Darum widert ihn das Spiel

all des zwölfmal unerbetnen

Ausgewalzten, Breitgetretnen.

 

Meistens ist in sechs bis acht

Wörtern völlig abgemacht, 

und in ebensoviel Sätzen

läßt sich Bandwurmweisheit schwätzen.

 

Es erfindet drum sein Geist

etwas, was ihn dem entreißt:

Brillen, deren Energieen

ihm den Text - zusammenziehen!

 

Beispielsweise dies Gedicht

läse, so bebrillt, man - nicht!

Dreiunddreißig seinesgleichen

gäben erst - ein - - Fragezeichen!!

 

(Christan Morgenstern)

 

-24.6.2014-

 

 

UTF 8

 

UTF 8 ist fast zu einem Standard geworden für die Zeichencodierung. In EXTRAKT jedoch sind die Wörterbücher in dem Iso-8859-1 (Latin-1) gespeichert. Durch eine interne Umwandlungsfunktion kann ab Version 5.0 b03 EXTRAKT auch UTF 8 verstehen. Da in den Wörterbüchern nur ein bis zwei Byte lange Zeichen vorkommen werden nur diese Zeichen konvertiert.

 

 

-13.6.2014-

 

 

Linguistische Software

 

Sucht man mit dem Begriff "Linguistische Software" in Google, so erscheint TEXTEC an erster Stelle in der Trefferliste. 

Google hat's also verstanden. Wohingegen der Veranstalter eines Info-Nachmittags zu dem Thema "Intelligente Sprachtechnologien aus dem Saarland" erst durch einen direkten Hinweis von TEXTEC von unseren linguistischen Produkten Kenntnis nahm (http://www.saar-is.de/innovation).

 

-23.4.2014-

Suche mit "linguistische Software" in Google (25.4.2014)

 

 

 

 

 

EXTRAKT und PoolParty

 

EXTRAKT wird in Verbindung mit der PoolParty Suite der Semantic Web Company eingesetzt. Die PoolParty dient dazu, semantische Zusammenhänge in Dokumenten zu entdecken und auszunutzen.

 

EXTRAKT hilft dabei, die Wort-Variationen in den Dokumenten auszugleichen und verbessert dadurch die semantische Suche.

 

 

 

-21.03.2014-

 

 

EXTRAKT & JAVA

 

Eine Neuprogrammierung von EXTRAKT hat begonnen. Die Grundfunktionen des Wörterbuchzugriffs, der Wörterbuchverwaltung, der Indexierung (mit Kompositazerlegung) und der Generierung sind fertiggestellt. Nach und nach werden die restlichen Funktionen folgen.

 

 -11.03.2014-

 

 

Verfeinerung der Komposita-Zerlegung

 

Die automatische Zerlegung deutscher Komposita ist eine komplizierte Aufgabe, denn ein Kompositum enthält im Grunde eine ganze syntaktische Struktur. Der erste Schritt bei der Zerlegung ist die Bestimmung der einzelnen Komponenten. Dabei wird auf die Wörterbücher zurückgegriffen, die in EXTRAKT geladen sind. Hierbei sind besonders kurze Wörter und Abkürzungen besonders problematisch: einerseits sollen sie erkannt werden, andererseits sollen sie nicht bei der Zerlegung des Kompositums als Kandidat eines Konstituenten auftreten dürfen.

In der aktuellen Version 4.1 können nun Wörterbücher mit einem neuen Parameter gekennzeichnet werden, der besagt, dass die Einträge des Wörterbuchs nicht zur Zerlegung des Kompositums genutzt werden dürfen.

 

Ein Beispiel: 

Die Abkürzung "Abk" könnte als Teil eines Kompositums identifiziert werden, etwa in dem Wort "Abklebeband", das nicht als Abkleben+Band, sondern als Abk+Leben+Band zerlegt werden würde.

 

Wenn das Abkürzungswörterbuch so gekennzeichnet ist, dass seine Einträge keine Kompositateile darstellen, kann das nicht mehr geschehen.

 

 

 

-26.6.2013-

 

Zum News - Archiv

Druckversion Druckversion | Sitemap
© 1995-2017 TEXTEC Software Dr. Erwin Stegentritt

Diese Homepage wurde mit 1&1 MyWebsite erstellt. Probieren Sie es selbst aus!