Pomoc w programowaniu, odpowiedzi na pytania / Pyton / Python2: Używanie .decode z error = 'replace' wciąż zwraca błędy - python, python-2.7, unicode, kodowanie znaków

Python2: Użycie .decode z błędami = 'replace' nadal zwraca błędy - python, python-2.7, unicode, kodowanie znaków

Więc mam message który jest odczytywany z pliku o nieznanym kodowaniu. Chcę wysłać na stronę do wyświetlenia. Dużo zmagałem się z UnicodeErrors i przeszedłem wiele pytań i odpowiedzi na StackOverflow i myślę, że dobrze rozumiem jak działa Unicode i kodowanie.

try :
return message.decode(encoding="utf-8")
except:
try:
return message.decode(encoding="latin-1")
except:
try:
print("Unable to entirely decode in latin or utf-8, will replace error characters with "?"")
return message.decode(encoding="utf-8", errors="replace")

Zwracana wiadomość jest następnie wrzucana do JSON i wysyłana na front end.

Przyjąłem to, ponieważ używam errors="replace"na ostatnim try except że zamierzam uniknąć wyjątków kosztem posiadania kilku „?” znaki na moim wyświetlaczu. Dopuszczalny koszt.

Wydaje się jednak, że byłem zbyt pełen nadziei, a dla niektórych plików nadal otrzymuję UnicodeDecodeException powiedzenie „kodeki ascii nie mogą dekodować” dla niektórych postaci. Dlaczego nie? errors="replace" po prostu się tym zajmij?

(również jako dodatkowe pytanie, co ascii ma wspólnego z tym?

Odpowiedzi:

1 dla odpowiedzi № 1

Nie powinieneś dostać UnicodeDecodeError z errors="replace". Również str.decode("latin-1") nigdy nie powinien zawieść, ponieważ ISO-8859-1 ma poprawne odwzorowanie znaków dla każdej możliwej sekwencji bajtów.

Podejrzewam, że to message jest już unicode ciąg, nie bajty. Tekst Unicode został już „zdekodowany” z bajtów i nie można go już odkodować.

Kiedy zadzwonisz .decode() a unicode ciąg, Python 2 stara się być pomocny i decyduje się kodować ciąg Unicode z powrotem do bajtów (przy użyciu domyślnego kodowania), dzięki czemu masz coś, co naprawdę możesz dekodować. Ten niejawny krok kodowania doesn "t posługiwać się errors="replace", więc jeśli w łańcuchu Unicode są jakieś znaki, które nie są w domyślnym kodowaniu (prawdopodobnie ASCII), otrzymasz UnicodeEncodeError.

(Python 3 już tego nie robi, ponieważ jest strasznie mylący)

Sprawdź typ message i zakładając, że rzeczywiście tak jest Unicode, wróć tam, aby znaleźć miejsce, w którym zostało zdekodowane (prawdopodobnie niejawnie), aby zastąpić je prawidłowym dekodowaniem.

0 dla odpowiedzi nr 2

dekodowanie z błędem zastąpienie implementuje obsługę błędów „zastąp” (dla kodowanie tekstu tylko): zastępuje „?” dla błędów kodowania (do zakodowania przez kodek) i „ufffd” (znak zastępczy Unicode) dla błędów dekodowania

kodowanie tekstu oznacza „kodek, który koduje ciągi Unicode na bajty”.

być może twoje dane są zniekształcone - powinieneś spróbować „zignorować” obsługę błędów, w przypadku gdy zniekształcone dane są ignorowane, a kodowanie lub dekodowanie jest kontynuowane bez powiadomienia.

message.decode(encoding="utf-8", errors="ignore")

Powiązane pytania

Kodowanie znaków Od języka chińskiego do Latin1 w Pythonie - python, kodowanie znaków, python-2.x, latin1

Różnica między dekodowaniem a unicode? - python, python-2.7, unicode

Używanie unicode malajalam w pythonie - python, unicode, kodowanie znaków, python-unicode

Dlaczego Python3 otrzymuje UnicodeDecodeError czytając plik tekstowy, w którym nie działa Python2? - python, python-3.x, unicode

konwersja ciągu znaków na typ Unicode w pythonie - python, unicode, encoding, utf-8

Przechodzenie z adresu URL zakodowanego z akcentem e do akcentowanego e w pliku tekstowym .json przy użyciu Pythona - python, utf-8, kodowanie znaków, kodowanie adresów URL

zagadnienie kodowania. Zastąp znak specjalny - python, python-2.7

jak niezawodnie dekodować różne kodowania do domyślnego kodowania systemowego - python, kodowanie znaków

Jak przekonwertować listę ciągów znaków do wartości Unicode? [duplicate] - python, unicode, kodowanie

Konwersja nazw domen na idn w python - python, unicode

Python utf-8 encoding wyrzuca UnicodeDecodeError pomimo "errors = 'replace" "- python, kodowanie, utf-8, cp1252

Funkcja dekodowania próbuje kodować Python - python, unicode, uniksowe-ucieczki

Jak wydrukować nieobsługiwane znaki Unicode w systemie Windows cmd, np. "?" Zamiast podnosić wyjątek? - python, windows, python-3.x, unicode, cmd

Konwertuj utf-8 jako ciąg znaków binarnych 0 i 1s do punktu kodowego - python, unicode, utf-8

Jak obsługiwać Python 3.x UnicodeDecodeError w pakiecie e-mail? - python, wyjątek, unicode, python-3.x, python-unicode

Przekształć ascii w unicode - python, utf-8

Dziwne zachowanie przy próbie drukowania znaków łańcucha bajtowego - python, bytestring

usuwanie znaków takich jak "u0152xe6" z ciągu znaków - python, python-2.7, python-unicode

Python unicode error. UnicodeEncodeError: kodek 'ascii' nie może kodować znaków u'u4e3a '- python, unicode, kodowanie, utf-8, python-2.x

Nie można zastąpić odczytanych znaków Unicode innym w tekście - python-3.x, unicode