說明:這個延伸點用來登錄在索引和搜尋文件時使用的文字分析器。
Lucene 搜尋引擎的說明開發功能,執行記號串流(文字串流)的索引作業。分析器從字元串流建立記號。他們查驗文字內容並提供記號供索引使用。文字串流可使用許多獨特的方法來作記號。普通的分析器可以在空白空格處作記號,不同的分析器能夠依據應用程式所需過濾記號。既然文件大多是可讀的文字,說明系統使用的分析器應可用來執行察覺語言與文法的記號化以及索引文字的正常化。對某些語言而言,如果停止文字的移除和在索引文字上執行起源,搜尋品質明顯的增加。 這個延伸點容許針對語言來配置分析器言,預設的說明系統未提供語言察覺分析器。
配置標記:
<!ELEMENT analyzer EMPTY>
<!ATTLIST analyzer
locale
CDATA #REQUIRED
class
CDATA #REQUIRED
>
下列是 Lucene 分析器配置的範例:
<extension id="com.xyz.XYZ" point="org.eclipse.help.luceneAnalyzer">
<analyzer locale="ll_CC"
class="com.xyz.ll_CCAnalyzer" />
</extension>
API 資訊:
locale 屬性值必須用五個或兩個字元語言環境字串來表示。 如果分析器是以兩個字母語言稱號的方式來配置某一語言,分析器將可以供此語言的所有語言環境使用。 如果分析器被配置符合五個字元的語言環境,將會用以取代。
class 屬性值必須代表一個類別,擴充 org.apache.lucene.analysis.Analyzer。 建議這個分析器執行語言的小寫過濾,有可能藉著不區分大小寫的搜尋增加搜尋命中數。
提供的實作:說明系統有英文和德文分析器, 分別配置給 en 和 de 語言環境使用。這些分析器執行停止文字過濾,小寫過濾,和起源。 沒有分析器配置的語言,說明使用簡單的分析器執行小寫過濾以及英文停止文字過濾。