Lucene 分析器

标识符:org.eclipse.help.luceneAnalyzer

描述:此扩展点用来注册文本分析器以便在建立索引和搜索文档时供帮助使用。

帮助利用 Lucene 搜索引擎的功能,该搜索引擎允许建立标记流(词语流)的索引。分析器根据字符流来创建标记。 它们检查文本内容并提供标记与索引配合使用。可以使用许多种唯一方法来标记化文本流。 普通分析器可以标记化空格处的流,另一个分析器可以根据应用程序的需要来执行标记过滤。 由于大部分文档都是人们可阅读的文本,所以期望帮助系统使用的分析器对已建立索引的文本执行识别语言和语法的标记化和标准化。 对于某些语言,如果对已建立索引的文本执行了停止字除去和阻止,则搜索质量会显著提高。 此扩展点允许为缺省帮助系统不提供识别语言的分析器的语言配置分析器。

配置标记:

   <!ELEMENT analyzer EMPTY>
   <!ATTLIST analyzer
      locale         CDATA #REQUIRED
      class          CDATA #REQUIRED
   >

示例:

以下是“Lucene 分析器”配置的一个示例:

    <extension id="com.xyz.XYZ" point="org.eclipse.help.luceneAnalyzer">
        <analyzer locale="ll_CC" class="com.xyz.ll_CCAnalyzer" />
    </extension>

API 信息

locale 属性的值必须表示一个 5 个字符或 2 个字符的语言环境字符串。如果通过指定 2 个字母的语言指定为某语言配置了分析器,则该分析器将用于此语言的所有语言环境。如果配置了符合 5 个字符语言环境的分析器,则将使用该分析器。

class 属性的值必须表示扩展 org.apache.lucene.analysis.Analyzer 的类。 建议此分析器对语言执行小写过滤,在该语言中,通过进行不区分大小写的搜索,可以提高搜索命中数。

所提供的实现:随英语版和德语版的分析器附带提供了帮助系统,这些分析器分别配置为用于 en 和 de 语言环境。这些分析器执行停止字过滤、小写过滤和阻止。对于未配置任何分析器的语言,帮助使用执行小写过滤和英语停止字过滤的简单分析器。


Copyright IBM Corp. and others 2000, 2002. All Rights Reserved.