/ カテゴリラベルを持つ複数のデータフレーム列を開始する - python、pandas、dataframe

カテゴリラベル(python、pandas、dataframe)で複数のデータフレーム列を開始する

問題文:

データフレームに1000 "のcsvファイルをロードする必要があります。すべてのファイルに同じ列があります。各列の値は、 限られた すべての場合に可能な値のセット(列ごとに異なる)。値の長さは100文字の文字の中にあります。私はあらかじめそれらの値を知っていません。

私のアプローチは、各ファイルを解析し、カテゴリの列を持つデータフレームに変換し、hdfsストアに格納することでした。後でそれらをまとめて「インメモリ」データフレームにまとめます。

カテゴリの値が競合するため、このデータフレームをすべて連結することができないため、空のデータフレームを作成し、同じ列とすべてのカテゴリ値を処理したファイルに表示します。

空の分類されたデータフレームは、私の出発点であり、次々と連結していきます。

df=pd.DataFrame(columns=["A","B"], dtypes={"A":"category","B":"category"} categories={"A":["a","b","c"],"B":["A","B","C","D"]})

df.concat[df1,df2,df3,d4]

または私が望む....

別の戦略がうまくいくでしょうか?

何かのようなもの

回答:

回答№1は0

これはpandas v0.19.0で解決されました。 gihubの問題 そして in pandas docs v.1.19 dev.

しかし、v1.19より前のソリューションでも全く同じ問題に優れた詳細な解決策がある記事があります カテゴリの交換を伴うパンダ