Snažil som sa zistiť, ako získať súbor utf-8 CSV, ktorý som stiahol do DataFrame. Zatiaľ som to skúsil
df = pd.read_csv("myfile.csv", encoding="utf8")
a dáva mi odpadky. S úspechom ju čítam
import csv
with open("some.csv", newline="", encoding="utf-8") as f:
reader = csv.reader(f)
for row in reader:
print(row)
ako je navrhnuté v tomto príspevku
Čítanie CSV súboru UTF8 s Pythonom
ale číta v tomto obrovskom súbore a nemôžem ho dostať do DataFrame.
Používam Python 3. Ďakujem za pomoc!
Moja špecifická chyba výstup je
UnicodeDecodeError: kodek "utf-8" nemôže dekódovať bajt 0xa0 v pozícii 3: neplatný bajt začiatku "
A súbor, ktorý sa pokúšam pracovať, je jedným z YEARLY súborov CSV stiahnutých z tohto odkazu (nie WEEKLY, nie som si istý, či je týždenný formát iný)
https://exporter.nih.gov/ExPORTER_Catalog.aspx?sid=2&index=0
odpovede:
0 pre odpoveď č. 1Opravil som to vďaka postu na túto otázku
Kodec "utf-8" nemôže dekódovať bajt 0x92 v pozícii 18: neplatný počiatočný bajt
Myslel som si, že vyskúšam opravu, ktorú navrhli
df = pd.read_csv("myfile.csv", encoding="cp1252")
a to fungovalo! Je to kódová stránka Windows 1252 ... nie utf-8