/ /は、HTMLスクラッピングのGoogleニュースの例です - スクリーンスクレイピング、ウェブスクレイピング

html scrapppingのgoogle newsの例です - スクリーンスクレーピング、ウェブスクレーピング

私はウェブアプリをグーグルニュースに似せたものにする必要があります。 私はそれのためにHTMLのスクラップを学ぶ必要がありますか、それとももっとテクニックがあります

回答:

回答№1は1

Googleニュースが示すもののほとんどはすべてRSS / ATOMです。スクレイピングと比較して、RSSフィードを通じてWebサイトのコンテンツを取得するのは非常に簡単です。

それ以外にあなたがJavaを使うことができるなら、あなたは自分自身で優れたライブラリを使ってhtmlを削ることができます ガチョウ 。 Flipboard / Instapaperが使うものと似ています


回答№2の場合は1

最も簡単な解決策は、データを取得しようとしているWebサイトのRSSフィードまたはATOMフィードを取得することです。

それらはよく知られている形式であり、抽出するこのようなXMLフィードからの情報は、HTMLページから取得するよりもはるかに簡単です。RSS/ ATOMを使用すると、XMLフィードを解析して、興味のある情報を含むタグを抽出するだけで済みます。

どの言語で作業しているのかわからないが、それを手助けするライブラリが見つかる可能性がある。


WebサイトがRSS / ATOMフィードをエクスポートしない場合 HTMLはRSS / ATOMほど構造化されていないため、HTMLスクラップにフォールバックする必要があるかもしれません。各Webサイトについて、ページ内のどこに関連性があるのか​​を確認する必要があります。情報