Estou recebendo caracteres codificados errados quando envio caracteres codificados utf8 de pandas para mysql com codificação latin-1. Este é um valor de exemplo que estou recebendo no mysql:
BiquÃni
Este é o meu código:
df.breakdown_name = df.breakdown_name.str.encode("latin-1")
send_data(DB_ENGINE, MYSQL_USER, MYSQL_PASSWORD, MYSQL_HOST, MYSQL_PORT, MYSQL_DB, MYSQL_TABLE, df)
def send_data(db, db_user, db_password, db_host, db_port, db_name, db_table, df):
"""
Return data
1
"""
# print db
# print db_user
# print db_password
# print db_host
# print db_port
# print db_name
# print query[0:20]
SQL_ENGINE = "{db}://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}?charset={encoding}".format(
db=db,
db_user=db_user,
db_password=db_password,
db_host=db_host,
db_port=db_port,
db_name=db_name,
encoding="latin1",
)
engine = create_engine(SQL_ENGINE)
df.to_sql(name=db_table,con=engine,schema="xxx",if_exists="append", index=False, chunksize=50)
Respostas:
1 para resposta № 1Eu suponho que o valor da amostra deveria ser:
print u"BiquÃni".encode("latin_1").decode("utf-8") # Biquíni
Assim, no seu código, você está fazendo a transformação inversa:
print u"Biquíni".encode("utf-8").decode("latin_1") # BiquÃni
O problema é que quando você implementa a cadeia:
- Codifique unicode para "utf-8" bytes.
- Decodifique esses bytes com qualquer codificação de 1 byte (como "latin_1").
para cada caractere unicode não-ASCII na entrada que você sempre recebe caracteres errados na saída. Isso acontece porque para tal personagem existe pelo menos um valor de 2 bytes em "utf-8".
Vamos ver exemplos:
print ord(u"z") # 122 => ASCII
print repr(u"z".encode("utf-8")) # "z", 1 byte
print repr("z".decode("latin_1")) # u"z"
Como vemos, para ASCII-character tudo funciona bem, mas:
print ord(u"í") # 237 => non-ASCII
import unicodedata
print repr(u"í") # u"xed"
print unicodedata.name(u"xed") # LATIN SMALL LETTER I WITH ACUTE
print repr(u"xed".encode("utf-8")) # "xc3xad" => 2 bytes
print repr("xc3".decode("latin_1")) # u"xc3" - the 1st char
print repr("xad".decode("latin_1")) # u"xad" - the 2nd char
print unicodedata.name(u"xc3") # LATIN CAPITAL LETTER A WITH TILDE
print unicodedata.name(u"xad") # SOFT HYPHEN
Então, no seu código para cada caractere não-ASCII após a codificação em "utf-8"
você obtém 2 bytes que são decodificados com "latin_1"
em 2 caracteres, e eles não correspondem ao caractere inicial.
Assim, o esquema atual do seu programa gerará resultados indesejáveis.
Eu sugiro usar a mesma codificação para encode()
e decode()
passos no seu código.