/ / Stanford Sentiment Analysisツールをトレーニングするための文字列データのPTB形式への変換

文字列データをPTB形式に変換して、スタンフォード感情分析ツール(nlp、stanford-nlp、センチメント分析、トレーニングデータ)をトレーニングします。

Stanford Sentiment Analysisツールをトレーニングするために、ツイートなどの文字列データをPTB形式に変換する方法を教えてください。

回答:

回答№1の場合は3

これは単純にから変換するのではありません。あるフォーマットから別のフォーマットへ。 @lenzが述べたように、PTBはパーサの出力フォーマットです - これは少なくともあなたがテキストを構文解析に変換する必要があることを意味します。自動パーサー(例:Berkeley / Stanford / BLLIPパーサー)はあなたにここでいくらかの方法を与えるかもしれません、しかし(1)自動パーサーはTwitterのテキストでひどい可能性があります、そして生のパースのちょっとした操作。

さらに、感情モデルを訓練するために、あなたはする必要があります。あなたのデータにセンチメントを付けます。つまり、構文解析ツリーの各構成要素について、その構成要素の収率に対する感情ラベルが何であるかを言う必要があります。これを行う自動ツールがある場合は、新しいモデルを訓練する必要はありません。


回答№2については2

Stanford CoreNLPパッケージには、PTB形式のテキストをトレーニング用に変換するためのJavaクラスファイルがあります。

クラス名はBuildBinarizedDatasetです。