Fraunhofer und IBM
Neue Suchtechnologie: Smart Semantics
Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS hat auf Basis von IBM-Technologien eine intelligente Suchtechnologie namens Smart Semantics entwickelt.
„Smart Semantics“ besteht aus intelligenten Softwarekomponenten, welche die Bedeutung von Informationen aus unstrukturierten Daten, wie Webseiten oder Dokumenten, durch modellbasierte Inhaltsanalysen erkennen. Im Gegensatz zu stichwort- oder regelbasierten Verfahren, wie sie die bekannten Suchmaschinen im Internet nutzen, verwenden Smart Semantics lernende und mustererkennende Verfahren. Sie ersparen dem Nutzer somit das aufwändige Filtern der Trefferlisten. Die Software basiert auf dem von der Firma IBM initiierten und entwickelten UIMA-Framework (UIMA: Unstructured Information Management Architecture) zur Analyse unstrukturierter Daten. Bis zum Herbst werden die ersten modellbasierten Komponenten für die maschinelle Klassifizierung von Dokumenten sowie für die automatische Schlagwortgenerierung und Namenserkennung zur Verfügung stehen. Das Fraunhofer IAIS entschied sich für die von IBM initiierte Architektur aufgrund deren Offenheit, Integrationsfreundlichkeit, kostengünstigen Testmöglichkeiten und der Zuverlässigkeit des Frameworks. Außerdem will das Institut die große Verbreitung von UIMA im Unternehmensumfeld nutzen.
Durch die Verknüpfung der Smart Semantics mit dem UIMA-Framework wollen das Fraunhofer IAIS und IBM die effizienten Suchtechnologien auch kleinen und mittelständischen Unternehmen erschließen. Die Smart Semantic Komponenten können als Plug-In auf UIMA basierenden Technologien, wie der IBM Suchlösung IBM Omnifind, eingebunden werden.
Drei Smart Semantics ab Herbst verfügbar
Ab Herbst 2009 stehen über IBM drei Smart Semantics zur Verfügung: „Site-Classifier“, „Named-Entity-Recognizer“ sowie der „Keyword-Extractor“. Der Site-Classifier erlaubt die maschinelle Klassifikation ganzer Dokumente wie Webseiten. Nach einer Trainingsphase sind auf diese Weise beispielsweise Projekt-, Mitarbeiter- oder Produktseiten automatisch als solche erkennbar und für die effizientere Suche nutzbar. Gegenüber konventionellen Verfahren haben lernende Verfahren den Vorteil, dass auch unbekannte Dokumente mit alternativen Begrifflichkeiten aufgrund ihrer Ähnlichkeit zu einem gelernten Modell klassifizierbar sind. Da auf diese Weise die Pflege von Stichwortlisten oder Heuristiken zur statischen Klassifikation entfällt, sparen Unternehmen umfangreichen Wartungsaufwand.
Der „Named-Entity-Recognizer“ identifiziert benannte Personen, Organisationen und Orte und ermöglicht dadurch die Filterung von Dokumenten nach diesen Merkmalen. Im Gegensatz zu herkömmlichen Verfahren erkennt die Smart Semantic-Komponente Bedeutungsunterschiede gleichlautender Begriffe. Der Keyword-Extractor ist eine Komponente, die statistisch signifikante Wörter aus Dokumenten extrahiert und für Wortvorschläge bei Suchanfragen oder als Zusatzinformationen in der Darstellung des Suchergebnisses bereitstellt.









