Ho un problema con la lettura in un CSV con un IDcampo con dtypes misti dai dati di origine originali, cioè il campo id può essere 11, 2R399004, BL327838, 7 ecc. ma la stragrande maggioranza è lunga 8 caratteri.
Quando lo leggo con più versioni di pd.read_csv e encoding = "iso-8859-1" converte sempre il 7 e l'1100000007 o simili. Ho provato ad usare utf-8 ma ottengo il seguente errore:
UnicodeDecodeError: il codec "utf-8" non può "decodificare il byte 0xc9 nella posizione 40: fine inaspettata dei dati
Ho provato a impostare il dtype = {"campo": oggetto} e la stringa e varie iterazioni di latino-1 e simili, ma lo farà continuamente.
C'è un modo per aggirare questo errore, senza passare attraverso ogni singolo file e correggere i dtypes?
risposte:
0 per risposta № 1Fondamentalmente la colonna sembra così
column_id 10 HGF6558 059 KP257 0001