a。私は単純なURLのクローラを使用しています(PHPで単純なクローラを作成するにはどうすればよいですか?)をxyz.com/items/advsearchに追加してください。 このページには、誰かが高度な検索を行った後の結果が一覧表示されます(すべての結果がリストされます)。私はそれらの結果をコピー/スクラップする必要があります。今、「次へ>」ページに行くと、そのURLがエンコードされ、「次へ」のURLにクロールすると、0の結果を示す詳細検索のメインページに戻ります。
b。 私が指摘したもう一つの事は:単純な人間のURLトラバーサルでは、 "Next>"のurlにはjessionidがありませんでしたが、file_get_contents()を使ってページのhtmlを取得すると、なぜこれはそうですか?
私はそれが私がクロールできないエンコードされたURL /セッションのものを混乱させるのはかなり難しいと思っています!緊急の助けが必要でした。
回答:
回答№1は0jsessionidは通常、格納され、クッキー。 URLリンクにURLを追加するのは、クライアントがCookieをサポートしていない可能性があることをJavaアプリケーションが認識している場合のみです。なぜなら、PHPスクリプトではなく、ブラウザがCookieを適切に処理するため、jsessionidパラメータがURLに追加されないからです。