プログラミングの助け、質問への回答 / r / R：スクレイピング時の時間間隔の導入 - r

R：スクレイピング時の時間間隔の導入 - r

私はいくつかのウェブサイトを"RSelenium"しかし、ウェブサイトが私の掻き取りの試みを検出したようです。各擦り傷の間にある程度の時間差を導入することは可能でしょうか。私のコードはこれです

Library("XML")
library("RSelenium")
checkForServer() # search for and download Selenium Server java binary.  Only need to run once.
startServer() # run Selenium Server binary
remDr <- remoteDriver(browserName="firefox", port=4444) # instantiate remote driver to connect to Selenium Server
remDr$open(silent=T) # open web browser

page_sub = read.csv("indigogo_edu_us.csv")

url_list = as.vector(page_sub$full_url[1:3])

scrape = function(url_list){

remDr$navigate(url_list) # navigates to webpage

elem <- remDr$findElement(using="class", value="i-description")
elemtxt <- elem$getElementAttribute("outerHTML")[[1]]
elemxml <- htmlTreeParse(elemtxt, useInternalNodes=T)

fundList <- unlist(xpathApply(elemxml, "//input[@title]", xmlGetAttr, "title")) # parses out just the fund name and ticker using XPath
page = as.data.frame(xpathSApply(  elemxml,"//div[@class="i-description"]", xmlValue, encoding="utf-8"))
names(page)[1] = "description"
}
cc = lapply(url_list, scrape)

回答：

回答№1は2

もちろん、 Sys.sleep。乱数ジェネレータを使用してランダムに表示することもできます。

行に沿った何か

Sys.sleep(runif(1, min = 3, max = 11))

関連する質問

ウェブハーベストによるウェブスクレイピング - ウェブスクレイピング、ウェブハーベスト

"スクレイピング"対 "スクラップ"：違いはありますか？ [閉鎖] - ウェブスクレイピング、用語

PRNGの一様分布 - 統計、prng

ファイルをダウンロードするスクラップ - スクリーンスクレーピング

スクリーンスクレイピングとSQLデータベース - スクリーンスクレイピング

どのようにサイト内のWatirルビーの宝石の活動をブロックするには？ - ルビー、スクリーンスクレイピング、ウェブスクレイピング、ウォーターウォーター、ワイアーウェブドライバー

生データ値を1分間隔で31日以上に分割する方法は？ - r、データセット、時系列

不足している時系列の間隔を記入する - r、時系列、xts、動物園、潤滑油

人間が読める（非）後続日付のリストを生成する - PHP

間隔を分割/マスクするperlモジュール - perl、interval

パンダを使って時間間隔のヒストグラムをプロットする方法は？ - パンダ

WebScraping読み込みページのリダイレクト - javascript、node.js、web-scraping

ベクトルへの数値の読み取り - c ++、入力、ベクトル

ポイント - C ++、計算ジオメトリ、間隔、スキップリストをオーバーラップするすべてのインターバルを見つける

asp.netでは、ページングが結果に対して実装されているときに、複数レコードをスクレーピングする方法を教えてください。 - asp.net、スクリーンスクレイピング

間隔の配列リストをソートする？ - 配列、並べ替え、間隔

間隔Sのセットが与えられます。最小時間複雑度アルゴリズム、検索、データ構造、ツリー、間隔で、指定された間隔（a、b）に含まれるSのすべての間隔を見つける必要があります。

K'th Minアルゴリズム、メモリ、データ構造、時間複雑度、分

単位長閉じ間隔 - アルゴリズム

ウェブスクレイピングを検出する方法 - アルゴリズム、セキュリティ、スクリーンスクレイピング、検出