/ / titan elasticsearchインデックスを使用しない-インデックス作成、elasticsearch、titan、グレムリン

titan elasticsearchインデックスを使用しない - 索引付け、elasticsearch、titan、gremlin

大規模なTitan Graphデータベースでは、次の動作に気付きます。

         ,,,/
(o o)
-----oOOo-(_)-oOOo-----
14:16:35 WARN  org.apache.hadoop.util.NativeCodeLoader  - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
gremlin> g = TitanFactory.open("/home/willem/workspace/ovc/src/main/resources/titan-cassandra-es.properties")
14:16:44 WARN  com.thinkaurelius.titan.graphdb.configuration.GraphDatabaseConfiguration  - Local setting cache.db-cache-time=0 (Type: GLOBAL_OFFLINE) is overridden by globally managed value (180000).  Use the ManagementSystem interface instead of the local configuration to control this setting.
==>titangraph[com.thinkaurelius.titan.diskstorage.cassandra.astyanax.AstyanaxStoreManager:[10.1.0.200]]
gremlin> g.indexQuery("mediaSerialNBStringIdx","v.mediaSerialNB:EB*").vertices().count()
==>937
gremlin> g.V().has("mediaSerialNB",PREFIX,"EB").count()
14:17:17 WARN  com.thinkaurelius.titan.graphdb.transaction.StandardTitanTx  - Query requires iterating over all vertices [(mediaSerialNB PREFIX EB)]. For better performance, use indexes

そのため、次を使用してインデックスを直接アドレス指定しますindexQuery(...)はインデックスを利用しますが、クエリオプティマイザーに任せると、その特定のフィールドにMixedIndexが存在するという事実を認識しません。

これは、elasticsearch 1.2.2で実行されるTitan 0.5.3です。

インデックスの詳細は次のとおりです。

gremlin> m = g.getManagementSystem()
==>com.thinkaurelius.titan.graphdb.database.management.ManagementSystem@6a26cb53
gremlin> m.getGraphIndex("mediaSerialNBStringIdx").isMixedIndex()
==>true
gremlin> m.getGraphIndex("mediaSerialNBStringIdx").getFieldKeys()
==>mediaSerialNB
gremlin> m.getGraphIndex("mediaSerialNBStringIdx").getBackingIndex()
==>search
gremlin> k = m.getPropertyKey("mediaSerialNB")
==>mediaSerialNB
gremlin> m.getGraphIndex("mediaSerialNBStringIdx").getIndexStatus(k)
==>INSTALLED

インデックスのステータスが「ENABLED」ではなく「INSTALLED」であるという事実から、手がかりが得られますか?もしそうなら、どのようにelasticsearchがそれを有効にするのを助けることができますか?

インデックスの再作成を読んで、次のことがわかりました。

mgmt.updateIndex(rindex, SchemaAction.ENABLE_INDEX);

しかし、これは私たちのデータベースが教えてくれているものです。

gremlin> mediaSerialNBKey = g.getPropertyKey("mediaSerialNB")
==>mediaSerialNB
gremlin> mediaSerialNBStringIdx = m.getGraphIndex("mediaSerialNBStringIdx")
==>com.thinkaurelius.titan.graphdb.database.management.TitanGraphIndexWrapper@7c54dcff
gremlin> mediaSerialNBStringIdx.getParametersFor(mediaSerialNBKey)
==>mapping->STRING
==>mapped-name->4h6t
==>status->INSTALLED
gremlin> m.updateIndex(mediaSerialNBStringIdx, SchemaAction.ENABLE_INDEX)
Update action [ENABLE_INDEX] does not apply to any fields for index [com.thinkaurelius.titan.graphdb.database.management.TitanGraphIndexWrapper@7c54dcff]

回答:

回答№1は5

はい、インデックスを有効にする必要があります。 これを行うには、インデックスの状態がREGISTEREDである必要があります。インストールされている状態ではありません。通常、同じストレージバックエンドを使用するすべてのTitanインスタンスがインデックスの変更を確認すると、この移行が自動的に行われます。

いくつかのインスタンスがアクティブではなくなっている可能性があります。 gremlinコンソールですべてのインスタンスをリストできます。

m=g.getManagementSystem()
m.getOpenInstances()

デッドインスタンスがある場合は、手動で削除する必要があります。

mgmt.forceCloseInstance("dead-instance-id")
mgmt.commit()

詳細についてはドキュメントをご覧ください。 セクション27.2.

私の経験から、インデックスのメンテナンスを実行する前に、グレムリンセッションを除くすべてのインスタンスをシャットダウンすることが最善です。

これで、手動でインデックスを登録できます( セクション28.7.1):

m = g.getManagementSystem()
mediaSerialNBStringIdx = m.getGraphIndex("mediaSerialNBStringIdx")
m.updateIndex(mediaSerialNBStringIdx, SchemaAction.REGISTER_INDEX)
m.commit()

チェックする:

m = g.getManagementSystem()
k = m.getPropertyKey("mediaSerialNB")
m.getGraphIndex("mediaSerialNBStringIdx").getIndexStatus(k)
// should return REGISTERED

これで、インデックスを正常に有効にできます。

m = g.getManagementSystem()
mediaSerialNBStringIdx = m.getGraphIndex("mediaSerialNBStringIdx")
m.updateIndex(mediaSerialNBStringIdx, SchemaAction.ENABLE_INDEX)
m.commit()