私はプロジェクトに取り組んでいます、そこで我々はbloggデータのための検索フレームワークを導入しようとしています。 300 GBを超える大規模データセットに対するlucene / Solrのパフォーマンスの見積もりに苦労しています。
また、単一のサーバー構成でパフォーマンス要件を満たすことができるのか、それとも複製された、または分散されたソリューションを使用する必要があるのかもわかりません。
誰もがハードウェアの見積もりを提供できますか?
回答:
回答№1は2何も決定的なことが適切でないと言うことができませんデータを見てください(あるいは、少なくとも単純なベンチマーク)。索引付けと検索のパフォーマンス(これらは別々に考慮する必要があります)も、構成によって大きく異なります。
しかしながら、 この記事 Luceneの索引付け速度の全体的な印象を与えるはずです - 1つの最新のマシンで約13分で21GBのウィキペディアの記事に索引を付けることが可能です。