/ / PHPクローラ - JSESSIONIDでURLに取り組む方法 - php、url、web-crawler、jsessionid

PHPクローラ - JSESSIONIDでURLに取り組む方法 - php、url、web-crawler、jsessionid

a。私は単純なURLのクローラを使用しています(PHPで単純なクローラを作成するにはどうすればよいですか?)をxyz.com/items/advsearchに追加してください。 このページには、誰かが高度な検索を行った後の結果が一覧表示されます(すべての結果がリストされます)。私はそれらの結果をコピー/スクラップする必要があります。今、「次へ>」ページに行くと、そのURLがエンコードされ、「次へ」のURLにクロールすると、0の結果を示す詳細検索のメインページに戻ります。

b。 私が指摘したもう一つの事は:単純な人間のURLトラバーサルでは、 "Next>"のurlにはjessionidがありませんでしたが、file_get_contents()を使ってページのhtmlを取得すると、なぜこれはそうですか?

私はそれが私がクロールできないエンコードされたURL /セッションのものを混乱させるのはかなり難しいと思っています!緊急の助けが必要でした。

回答:

回答№1は0

jsessionidは通常、格納され、クッキー。 URLリンクにURLを追加するのは、クライアントがCookieをサポートしていない可能性があることをJavaアプリケーションが認識している場合のみです。なぜなら、PHPスクリプトではなく、ブラウザがCookieを適切に処理するため、jsessionidパラメータがURLに追加されないからです。