Ayuda en la programación, respuestas a preguntas / Pitón / ¿Cómo la decodificación en utf-8 conoce los límites de los bytes? - python, utf-8, decodificar

¿Cómo la decodificación en utf-8 conoce los límites de los bytes? - python, utf-8, decodificar

He estado haciendo un montón de lectura en UnicodeCodificaciones, especialmente con respecto a Python. Creo que ahora tengo una comprensión bastante clara de esto, pero todavía hay un pequeño detalle del que no estoy seguro.

¿Cómo conoce la decodificación los límites de los bytes? Por ejemplo, digamos que tengo una cadena Unicode con dos caracteres Unicode con representaciones de bytes de xc6xb4 y xe2x98x82, respectivamente. Luego escribo esta cadena Unicode en un archivo, por lo que el archivo ahora contiene los bytes. xc6xb4xe2x98x82. Ahora decido abrir y leer el archivo (y Python por defecto decodifica el archivo como utf-8), lo que me lleva a mi pregunta principal.

¿Cómo sabe la decodificación interpretar los bytes? xc6xb4 y no xc6xb4xe2?

Respuestas

3 para la respuesta № 1

Los límites de bytes se determinan fácilmente a partir de los patrones de bits. En tu caso, xc6 comienza con los bits 1100y xe2 comienza con 1110. En utf-8 (y estoy bastante seguro de que esto no es un accidente), puede determinar el número de bytes en todo el carácter mirando solo el primer byte y contando el número de 1 Bits al inicio antes de la primera. 0. Entonces tu primer carácter tiene 2 bytes y el segundo tiene 3 bytes.

Si un byte comienza con 0, es un carácter ASCII regular.

Si un byte comienza con 10, es parte de una secuencia utf-8 (no el primer carácter).

preguntas relacionadas

¿Es posible especificar endian grande / pequeño para cada campo cuando se usa binary.Read () para decodificar una secuencia de bytes en una estructura? - struct, go, binary, endianness

Decodificación incorrecta con utf_7 - python, codec, utf

Error de decodificación de Python en Excel con xlrd - python, xlrd

¿Cómo puedo usar Python para reemplazar los caracteres de escape HTML? [duplicado] - python

Problemas con la decodificación de bytes en cadenas o ASCII en python 3: python, python-3.x, decodificación, utf8-decode, bytestream

Decodificación de bytes / bits a binario - python, byte, decodificación, bits, gpib

Python2: el uso de .decode with errors = 'replace' todavía devuelve errores: python, python-2.7, Unicode, codificación de caracteres

¿Qué hace un `line.decode ()` en Python 2? - python, python-2.7, python-3.x, codificación

Obtención básica del cuerpo HTML de una URL con Python 3.x - python, url, urllib2

Python que decodifica caracteres extraños - python, decode, encode

encontrar palabra en árabe cadena en cadena dar error 'ascii' códec no puede decodificar - python, unicode, árabe

eliminar caracteres como 'u0152xe6' de la cadena - python, python-2.7, python-unicode

El códec 'utf8' no puede decodificar el byte 0xc3 mientras decodifica ('utf-8') en python - python, encoding, utf-8

En el shell IDLE 3 de python, cómo usar correctamente el comando 'ls' para obtener el resultado correcto - python-idle, python

¿Decodificación de símbolos UTF8 multibyte con decodificador de juego de caracteres byte por byte? - java, utf-8, codificación de caracteres

Causa del artefacto / artefacto de video: java, video, codificación, decodificación, reproducción

Decodificación de URL ä -> ã1⁄4 - java, url, utf-8, decodificación

“Se encontró un modo no válido: 9” al decodificar con NSpeex - c #, .net, naudio, decoding, nspeex

Convertir una cadena en una cadena de binarios - c #, visual-studio-2013

Descodificar solo algunos bytes de PCM a la vez desde un archivo mp3 - android, audio, mp3, inputstream, decodificador