Vyexportoval som súbor s hodnotou oddeleným čiarkamidatabáza MSQL (koniec rpt-súboru). Má len dva stĺpce a 8 riadkov. Keď sa pozrieme na súbor v poznámkovom bloku, všetko vyzerá v poriadku. Snažil som sa načítať dáta do dátového rámca pandy pomocou kódu uvedeného nižšie:
import pandas as pd
with open("file.csv", "r") as csvfile:
df_data = pd.read_csv(csvfile, sep="," , encoding = "utf-8")
print(df_data)
Pri tlači na konzolu je prvý názov hlavičky stĺpca nesprávny s niektorými ďalšími znakmi, ï »¿, na začiatku stĺpca 1. Nechcem žiadne chyby, ale zrejme prvý stĺpec je nesprávne dekódovaný v mojom kóde:Obrázok výstupu
Každý, kto má nejaké nápady, ako to dosiahnuť?
odpovede:
0 pre odpoveď č. 1Tu je jedna možná možnosť: Opravte tieto hlavičky po ich načítaní:
df.columns = [x.encode("utf-8").decode("ascii", "ignore") for x in df.columns]
Na str.encode
nasleduje str.decode
hovor klesne tie špeciálne znaky, opúšťa len tie v ASCII rozmedzí za:
In [1429]: "aSA".encode("utf-8").decode("ascii", "ignore")
Out[1429]: "aSA"