私はウェブアプリをグーグルニュースに似せたものにする必要があります。 私はそれのためにHTMLのスクラップを学ぶ必要がありますか、それとももっとテクニックがあります
回答:
回答№1は1Googleニュースが示すもののほとんどはすべてRSS / ATOMです。スクレイピングと比較して、RSSフィードを通じてWebサイトのコンテンツを取得するのは非常に簡単です。
それ以外にあなたがJavaを使うことができるなら、あなたは自分自身で優れたライブラリを使ってhtmlを削ることができます ガチョウ 。 Flipboard / Instapaperが使うものと似ています
回答№2の場合は1
最も簡単な解決策は、データを取得しようとしているWebサイトのRSSフィードまたはATOMフィードを取得することです。
それらはよく知られている形式であり、抽出するこのようなXMLフィードからの情報は、HTMLページから取得するよりもはるかに簡単です。RSS/ ATOMを使用すると、XMLフィードを解析して、興味のある情報を含むタグを抽出するだけで済みます。
どの言語で作業しているのかわからないが、それを手助けするライブラリが見つかる可能性がある。
WebサイトがRSS / ATOMフィードをエクスポートしない場合 HTMLはRSS / ATOMほど構造化されていないため、HTMLスクラップにフォールバックする必要があるかもしれません。各Webサイトについて、ページ内のどこに関連性があるのかを確認する必要があります。情報