最近、Webクローラーをトラップするために、いくつかの非表示のリンクをWebサイトに配置しました。 (人間のユーザーがアクセスするのを避けるために、CSSの可視性の非表示スタイルを使用しました)。
とにかく、隠しリンクにアクセスしたブラウザを参照したHTTPリクエストがたくさんあることがわかりました。
E.g : "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31"
だから今私の問題は次のとおりです。
(1)これらのWebクローラーはありますか?それとも何ができるのでしょうか?
(2)それらは悪意がありますか?
(3)彼らの行動をプロファイルする方法はありますか?
ウェブで検索しましたが、貴重な情報が見つかりませんでした。リソースを教えていただけますか、何か助けていただければ幸いです。
回答:
回答№1は0これはHTTPです ユーザー エージェント。それらは悪意のあるものではありません。たとえば、パターンに従っています。 Mozilla/<version>
等々。たとえば、ブラウザはユーザーエージェントです。ただし、攻撃者が使用する可能性があり、これは異常を調べることで特定できます。あなたはこれを読むことができます 紙。
ハイパーテキスト転送プロトコル(HTTP)は、クライアントソフトウェアを識別します 「User-Agent」ヘッダーを使用してリクエストを発信します。 クライアントはユーザーによって操作されません。
あなたの質問への答えは、順番にあります:
- それらはWebクローラーではありません。彼らはユーザーエージェントです。 Web開発者の一般的な用語。
- 一般的には悪意はありませんが、私が提案するように、論文を見ることができます。
- プロファイリング動作の意味がわかりません。マルウェアではありません。