Webgate Anywhere 4.1 - Handbuch zur Installation und Administration
Features und Konzepte Lucene Volltextindizierung

12.1 Lucene Volltextindizierung

Auf Basis der Open Source Bibliothek ?Lucene? der Apache Software Foundation existiert seit WGA 3.2 eine für alle Content-Stores einheitliche Möglichkeit zur Volltextindizierung der Inhalte. WGA Content-Stores können regelbasiert indiziert und über eine einheitliche Abfragesprache durchsucht werden. Dabei spielt es keine Rolle, welche Datenbanktypen zum Einsatz kommen, solange es sich um vollwertige WGA Content Stores handelt. Datenbank übergreifende Suchanfragen sind selbst in einer Mischumgebung aus Domino-Datenbanken und relationalen Datenbanksystemen möglich.

Seit Version 3.3.1 indiziert WGA nicht nur Items von Inhaltsdokumenten sondern kann auch deren Dateianhänge indizieren. In der aktuellen WGA-Version ist dies ist möglich bei Dokumenten folgender Typen:

Die Open Document Formate sind standardisierte Formate für Office-Dokumente welche von der Open Source Office-Suite OpenOffice verwendet werden.

Der Typ der Dateien wird an der jeweiligen Endung erkannt. Es besteht die Möglichkeit, die Menge an verarbeitbaren Dateitypen über benutzerdefinierte Dateihandler zu erweitern.

Da WGA sich bezüglich des Auswertens dieser Dateiformate auf Drittbibliotheken stützt (Apache POI, PDFBox) kann die Innovation Gate GmbH keine Gewähr für das korrekte Auswerten dieser Dateiformate, sowie die Kompatibilität mit allen Formatversionen, geben. Benötigen sie Auswertungsunterstützung für einen Dateitypen jenseits des Auslieferungsstandes von WGA so besteht die Möglichkeit einen benutzerdefinierten Filehandler zu implementieren, der kommerzielle Auswertungs-Bibliotheken mit mehr Leistungsfähigkeit verwendet.

Das Lucene-Modul von WGA ist als eigenständiger Task implementiert, der auf niedriger Priorität ausgeführt wird. Lucene hat somit keinerlei Auswirkungen auf das Antwortverhalten des Systems im Livebetrieb.

Alle Indizierungsvorgänge erfolgen asynchron über so genannte Indexing-Requests. Änderungen an einer Datenbank werden daher nicht zeitgleich in den Index übertragen. Das Intervall für Indexupdates beträgt 15 Sekunden. Unter hoher Last kann sich der Zeitraum zwischen Datenbankänderung und Aktualisierung des Indexes Aufgrund der Priorisierung von Benutzeranfragen erhöhen. Der aktuelle Status (Not activated, Indexing content, Idle) des Indexers wird auf der Administrationsseite unter dem Register "Information" im Feld "Lucene indexer status" angezeigt.

Nachdem eine Datenbank initial indiziert worden ist, werden alle weiteren Änderungen inkrementell verarbeitet. Um einen konsistenten Indexstand zu gewährleisten, werden Indexing-Requests, die z.B. aufgrund von Netzwerkproblemen nicht auf die Datenbank zugreifen konnten, zwischengespeichert und automatisch zu einem späteren Zeitpunkt wiederholt. Wird WGA während eines Indexprozesses heruntergefahren, so werden zunächst alle ausstehenden Indizierungen abgeschlossen und erst danach WGA beendet.

Table of contents:


<< Features und Konzepte Konfiguration >>