プログラミングの助け、質問への回答 / r / R-rにおける非構成的観測のサブセット化

R - rにおける非遵守観測のサブセット化

200万行を超えるテーブルがあります。 1つの変数のパーセンタイルと観測数のパーセンタイル（ローレンツ曲線など）にのみ興味があります。

を含む小さなデータフレームを作成するにはどうすればよいですか例えば観測番号1,101,201,301、...、lastまたは、たとえば観測の合計数の1,2,3、...、100パーセンタイル？
ローレンツ曲線を取得する簡単な方法はありますか（インデックス、変数）パーセンテージベースの軸で？今、インデックスと変数のパーセンタイルに変数を追加し、それらを互いにプロットすることを考えていました。

ありがとう、

ロベルト

回答：

回答№1は1

最初の質問については、私は quantile 関数。（たとえば）最初の列の観測の総数の1,2,3、...、100パーセンタイルに従ってデータフレームのサブセットを取得します（列1の整数値を仮定）

df[df[,1] %in% round(quantile(df[,1], probs = c(1:100)/100)),]

回答№2の場合は1

「大きな」データセットの場合

dfr <- data.frame(x = 1:1000, y = runif(1000))

等間隔の行のサブセットを取得できます

dfr[!(seq_len(nrow(dfr)) %% 50),]

または、ランダムなサブセット

dfr[sample(nrow(dfr), 20),]

gd047が述べたように、使用 quantile 分位/パーセンタイルを取得します。

関連する質問

パネルデータで一度しか表示されない観測データを落とす

SASはいくつかのデータを削除した後、グループ内の観測数を数えます

key-r、data.tableの各値に対する非NA観測の数に基づいてデータを除外する

繰り返しではないが同様に索引付けされた、より小さいデータフレーム、データフレーム、サブセットの値を使用して、反復インデックス付きデータフレームをサブセット化する

データのサブセット化と軸のデータの制限には違いがありますか？ - r、ggplot2

R [duplicate] - R、ベクトル、論理、サブセットにおける同一観測値のサブセット化

密な観測に基づいて列を作成する - r

R - r、混同行列の順序混同行列

R - r、サブセット、パネル - データのサブセットパネルデータ

R - r、フォーマット、条件、データフレーム、サブセットの異なるデータフレームの調整値に基づいてサブセットを設定するときにエラーが発生する

cut2は不等なバケットに分割されます - r

R - rにおける観測量に関する因子のサブセット化

各グループの最初の4回の観察から細分化されたサブセットを作成する - r

サブセッティングで変数値を設定する - r、変数、サブセット

R - r、merge、subsetで観測数が等しくないデータセットをサブセット化する

Rcpp Armadillo、サブマトリックスとサブベクトル - rcpp、armadillo、submatrix

列番号を使ってPandasデータフレームをサブセット化する - python、pandas

ルーピングと値を取る - Python

インラインブロックを使用してNSArrayでオブジェクトインデックスを検索する - objective-c、nsarray、objective-c-blocks、css

Hue / Hive出力からすべての観測をダウンロードするにはどうすればよいですか？ - ハープ、ハイブ、色相