Pomoc pri programovaní, odpovede na otázky / krajta Ako dekódovanie v utf-8 pozná hranice bajtov? - python, utf-8, dekódovanie

Ako pozná dekódovanie v utf-8 hranice bajtov? - python, utf-8, dekódovanie

Ja som robil veľa čítania na unicodekódovania, najmä pokiaľ ide o Python. Myslím, že na to teraz veľmi dobre rozumiem, ale stále je tu malý detail, o ktorom som trochu neistý.

Ako dekódovanie pozná hranice bajtov? Povedzme napríklad, že mám unicode reťazec s dvoma znakmi unicode s bajtovými reprezentáciami xc6xb4 a xe2x98x82, resp. Potom som tento reťazec unicode napísal do súboru, takže súbor teraz obsahuje bajty xc6xb4xe2x98x82, Teraz sa rozhodnem otvoriť a prečítať súbor (a Python predvolene dekóduje súbor ako utf-8), čo ma vedie k mojej hlavnej otázke.

Ako dekódovanie vie interpretovať bajty xc6xb4 a nie xc6xb4xe2?

odpovede:

3 pre odpoveď č. 1

Bajtové hranice sa dajú ľahko určiť z bitových vzorov. Vo vašom prípade, xc6 začína bity 1100, a xe2 začína s 1110, V utf-8 (a ja som si istý, že to nie je náhoda), môžete určiť počet bajtov v celej postave tým, že hľadáte iba na prvý byte a počítate počet 1 bitov na začiatku pred prvým 0, Takže vaša prvá postava má 2 bajty a druhá má 3 bajty.

Ak začína bajt 0, je to bežný znak ASCII.

Ak začína bajt 10, je súčasťou sekvencie utf-8 (nie je to prvý znak).

Súvisiace otázky

Je možné špecifikovať veľké / málo endian pre každé pole pri použití binary.Read () na dekódovanie byte stream do štruktúry? - struct, go, binárne, endianness

Chybné dekódovanie pomocou utf_7 - python, kodek, utf

Chyba pri dekódovaní Pythonu v programe Excel s xlrd - python, xlrd

Ako môžem použiť Python na nahradenie znakov HTML escape? [duplicitné] - python

Problémy s dekódovaním bajtov do reťazca alebo ASCII v pythone 3 - python, python-3.x, dekódovanie, utf8-decode, bytestream

Dekódovanie bajtov / bitov na binárne - python, bajt, dekódovanie, bitov, gpib

Python2: Použitie .decode with errors = 'replace' stále vracia chyby - python, python-2.7, unicode, kódovanie znakov

Čo robí `line.decode () 'v Pythone 2? - python, python-2.7, python-3.x, kódovanie

Základné načítavanie telo HTML adresy URL pomocou Pythonu 3.x - python, url, urllib2

Python dekódovanie divných znakov - python, dekódovanie, kódovanie

nájsť arabský reťazec v reťazci dať chybu 'ascii' kodek nemôže dekódovať - python, unicode, arabic

odstránenie znakov ako 'u0152xe6' z reťazca - python, python-2.7, python-unicode

Kodec "utf8" nemôže dekódovať bajt 0xc3 pri dekódovaní ('utf-8') v python-python, kódovanie, utf-8

V systéme python IDLE 3, ako správne použiť správny príkaz "ls" - python-idle, python

Dekódovanie multibajtových symbolov UTF8 s dekódovateľom charsetov v byte-by-byte spôsobom? - java, utf-8, kódovanie znakov

Príčina artefaktu / artefaktu videa - java, video, kódovanie, dekódovanie, prehrávanie

URL dekódovanie ä -> ã1/4 - java, url, utf-8, dekódovanie

"Neplatný režim sa vyskytol: 9" pri dekódovaní pomocou NSpeex - c #, .net, naudio, dekódovanie, nspeex

Konverzia reťazca na reťazec binárneho - c #, visual-studio-2013

Dekódovanie iba niektorých PCM bajtov naraz z mp3 súboru - android, audio, mp3, vstup, dekodér