Lucene-Analyzer

Kennung: org.eclipse.help.luceneAnalyzer

Beschreibung: An diesem Erweiterungspunkt können Textanalyzer zur Verwendung mit der Hilfefunktion beim Indexieren und Durchsuchen von Dokumentationen registriert werden.

Die Hilfefunktion macht Gebrauch vom Leistungsspektrum der Lucene-Suchsteuerkomponente, mit deren Hilfe Token-Ströme (Wortdatenströme) indexiert werden können. Analyzer erstellen Token aus dem Zeichenstrom. Sie untersuchen den Textinhalt und stellen Token zur Verwendung mit dem Index zur Verfügung. Der Textstrom kann auf vielfältige Weise mit Token versehen werden. Ein einfacher Analyzer kann Ströme bei Leerräumen mit einem Token versehen, während ein anderer Analyzer Token auf der Basis der Anwendungserfordernisse filtern kann. Da es sich bei der Dokumentation überwiegend um von Personen lesbaren Text handelt, sollten die vom Hilfesystem verwendeten Analyzer den indexierten Text mit sprach- und grammatikempfindlichen Token versehen sowie Textnormalisierung ausführen. Für manche Sprachen kann die Qualität der Suche signifikant gesteigert werden, wenn im indexierten Text Stoppwörter entfernt werden und eine Wortstammsuche (Stemming) ausgeführt wird. Dieser Erweiterungspunkt ermöglicht die Konfiguration von Analyzern für die Sprachen, für die das Standardhilfesystem keine sprachempfindlichen Analyzer zur Verfügung stellt.

Konfigurationsbefehle:

   <!ELEMENT analyzer EMPTY>
   <!ATTLIST analyzer
      locale         CDATA #REQUIRED
      class          CDATA #REQUIRED
   >

Beispiele:

Das folgende Beispiel stellt die Konfiguration des Lucene-Analyzers dar:

    <extension id="com.xyz.XYZ" point="org.eclipse.help.luceneAnalyzer">
        <analyzer locale="ll_CC" class="com.xyz.ll_CCAnalyzer" />
    </extension>

API-Informationen:

Der Wert des Attributs locale muss eine Ländereinstellungszeichenfolge von zwei bzw. fünf Zeichen darstellen. Wenn der Analyzer durch Angabe einer zweibuchstabigen Sprachkennung für eine Sprache konfiguriert ist, wird er für alle Ländereinstellungen dieser Sprache verwendet. Wenn der Analyzer für Ländereinstellungen mit fünf Zeichen konfiguriert ist, wird stattdessen dieser Analyzer verwendet.

Der Wert des Attributs class muss eine Klasse darstellen, die org.apache.lucene.analysis.Analyzer erweitert. Es wird empfohlen, dass dieser Analyzer Sprachen im Kleinschreibemodus filtert, wobei die Anzahl von Suchtreffern erhöht werden kann, indem die Suche die Groß-/Kleinschreibung beachtet.

Bereitgestellte Implementierung: Das Hilfesystem wird mit englischen und deutschen Analyzern geliefert, die für die entsprechende Verwendung mit Ländereinstellungen vom Typ "en" bzw. "de" konfiguriert sind. Diese Analyzer führen Filterung mit Stoppwörtern, Filterung für Kleinschreibung und Wortstammsuche (Stemming) durch. Für Sprachen, für die keine Analyzer konfiguriert sind, verwendet das Hilfesystem einen einfachen Analyzer, der Filtern für Kleinschreibung sowie Stoppwortfiltern (in Englisch) durchführt.


Copyright IBM Corp. und Andere 2000, 2002. Alle Rechte vorbehalten.