/ / Solr findet nicht alle chinesischen Zeichen - solr, cjk

Solr findet nicht alle chinesischen Zeichen - solr, cjk

Ich möchte Solr für eine chinesische Seite verwenden. Es funktioniert gut, aber ich kann einige Zeichen nicht finden.

Ich verwende die SmartChineseSentenceTokenizerFactory in meiner schema.xml wie folgt:

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>

<analyzer type="query">
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.PositionFilterFactory" />
</analyzer>
</fieldType>

Ich habe die CJKTokenizerFactory auch ausprobiert, das Ergebnis war noch schlechter. Auf einer Beispielseite habe ich folgenden Text erhalten (eine Kopie von Wikipedia-China)

必須 參加 國 中 教育 會考

Es ist in Solr indiziert und ich kann nach allen Zeichen außer 教 suchen

Dieses Zeichen bedeutet so viel wie: Lehren, Unterrichten, Lehren, Religion - es ist also ein normales Wort.

Das ist nur ein Beispiel, bei dem einzelne Zeichen nicht gefunden werden können.

Antworten:

0 für die Antwort № 1

Ich habe ein ähnliches Problem, aber ich glaube esweil intelligentes Chinesisch ein Wörterbuch verwendet, das nach Erkennenden statt nach Einzelzeichen sucht. Ich kann auch ohne Probleme nach 教育 oder 教授 suchen, aber 教 produziert dann nichts. Ich habe also zwei Suchvorgänge auf unserer Website, eine verwendet solr und die andere ist eine einfache Suche gegen den Text. Dann gebe ich den Benutzern lediglich Anweisungen auf der Website, wie jede Suche funktioniert.

Was war deine ultimative Lösung?