/ / čítať utf-8 súbor CSV do dátového rámca - python, pandas, utf-8

čítať utf-8 súbor CSV do dátového rámca - python, pandas, utf-8

Snažil som sa zistiť, ako získať súbor utf-8 CSV, ktorý som stiahol do DataFrame. Zatiaľ som to skúsil

df = pd.read_csv("myfile.csv", encoding="utf8")

a dáva mi odpadky. S úspechom ju čítam

import csv
with open("some.csv", newline="", encoding="utf-8") as f:
reader = csv.reader(f)
for row in reader:
print(row)

ako je navrhnuté v tomto príspevku

Čítanie CSV súboru UTF8 s Pythonom

ale číta v tomto obrovskom súbore a nemôžem ho dostať do DataFrame.

Používam Python 3. Ďakujem za pomoc!

Moja špecifická chyba výstup je

UnicodeDecodeError: kodek "utf-8" nemôže dekódovať bajt 0xa0 v pozícii 3: neplatný bajt začiatku "

A súbor, ktorý sa pokúšam pracovať, je jedným z YEARLY súborov CSV stiahnutých z tohto odkazu (nie WEEKLY, nie som si istý, či je týždenný formát iný)

https://exporter.nih.gov/ExPORTER_Catalog.aspx?sid=2&index=0

odpovede:

0 pre odpoveď č. 1

Opravil som to vďaka postu na túto otázku

Kodec "utf-8" nemôže dekódovať bajt 0x92 v pozícii 18: neplatný počiatočný bajt

Myslel som si, že vyskúšam opravu, ktorú navrhli

df = pd.read_csv("myfile.csv", encoding="cp1252")

a to fungovalo! Je to kódová stránka Windows 1252 ... nie utf-8