Допомога у програмуванні, відповіді на питання / Perl / Чому розшифровка "& euro;" до "€" також перетворює "é" у "Ã ©" у виході? - perl, utf-8, кодування символів

Чому декодування "& euro;" до "€" також перетворює "é" на "Ã ©" на виході? - perl, utf-8, кодування символів

Я новачок в сценаріях Perl, і я стикаюся з деякими проблемами в розшифровці рядка:

use HTML::Entities;
my $string="Rémunération   &euro;";
$string=decode_entitie($string);
print "$string";

Отриманий результат виглядає так RÃ©munÃ©ration €, коли це має виглядати Rémunération €.

Чи може хто-небудь, будь ласка, допоможіть мені з цим?

Відповіді:

8 для відповіді № 1

Якщо ви користуєтеся цією версією коду (з друком в decode_entities фіксований, строгий режим і попередження увімкнено та додатково print додано) в терміналі:

use strict;
use warnings;
use HTML::Entities;
my $string="Rémunération   &euro;";
print "$stringn";
$string=decode_entities($string);
print "$stringn";

Ви повинні побачити такий вихід:

Rémunération   &euro;
Wide character in print at test.pl line 7.
RÃ©munÃ©ration   €

Що відбувається - це наступний ланцюжок подій:

Ваш код написано utf-8, але не майте use utf8; в ньому, тому Perl аналізує ваш вихідний код (і, зокрема, будь-які рядкові літерали в ньому) байт за байтом. Таким чином, рядок буквальний "é" аналізується як двозначний рядок, тому що кодування utf-8 é займає два байти.
Зазвичай це не має значення (багато), тому що ваш STDOUT також не знаходиться в режимі utf-8, і тому він просто бере будь-який байт-рядок, який ви йому надаєте, і розпилює його по байтах, а ваш термінал інтерпретує отриманий результат як utf-8 (або намагається).

Отже, коли ти робиш print "é"; Perl думає, що ви "друкуєте двосимвольну рядок у байтовому режимі і виписуєте два байти, які просто трапляються для кодування utf-8 кодування одного символу é.
Однак, коли ви запускаєте рядок наскрізь decode_entities(), він розшифровує € у фактичний Unicode € символу, який не вміщується всередині одного байта.
Коли ви намагаєтеся надрукувати отриманий рядок, Perl помічає "широкий" € характер. Він не може друкувати його як єдиний байт, тому замість цього він повертається до кодування весь рядок як utf-8 (і надсилає попередження, якщо вони увімкнено, як слід). Але це викликає és (які були вже закодовані, оскільки Perl ніколи їх не розшифровував під час розбору вашого коду), щоб отримати подвійне кодування UTF8, створюючи моджибаке вихід, який ви бачите.

Просте виправлення - додати use utf8; до вашого коду, а також встановити всі файлові файли (в тому числі STDIN / STDOUT / STDERR) до режиму utf-8 за замовчуванням, наприклад подобається це:

use utf8;
use open qw(:std :utf8);

Якщо ті рядки були попередньо випробуваним сценарієм вище, отриманий результат повинен бути:

Rémunération   &euro;
Rémunération   €

Схожі запитання

як ми можемо отримати як "<? xml version =" 1.0 "encoding =" utf-8 "standalone =" yes "?>" за допомогою Castor - xml, xsd, castor, xml-declaration

Помилка перевірки W3C: 'Тип документа не дозволяє елементу "div" тут; відсутній один з "об'єктів", "ins", "del", "карта", "кнопка" start-tag "- xhtml, w3c-перевірка

У Xcode, як змінити те, що видно між кнопками "Запустити" "Зупинити" та "iPhone 5.1 Simulator" - xcode

чому інтерфейс інтерфейсу повернувся "{" error ":" немає відповіді від сервера "}" після конфігурації з api manager - wso2, wso2-am, wso2apicloud

У чому різниця між "uintN" та "varuintN" в WebAssembly? - веб-збірка

У рядку String.replace ("c", ""), яке значення ASCII є ""? - рядок

Чи потрібна мені сторінка "Веб-дизайн" [city-name] "та" Website Design [city-name] ", чи можу я оцінити обидва варіанти, використовуючи" Design Website [city-name] "? - seo, пошуковий движок, пошуковий движок-ботів

Проблема кодування: як дозволити консолі друкувати "ć" замість "c"? - r, кодування, кодування символів, символ, utf

Відмінності між «Вільними твердженнями» та «Бібліотекою підтвердження» - .net, одиничним тестуванням

Як розділити "11.11.11.1211.11.11.11" на "" в java? "\\" і "\" не працюють [дублікати] - java, regex, backslash

AJAX - {"readyState": 0, "responseText": "", "status": 0, "statusText": "error") - javascript, php, jquery, ajax

Не вдалося виконати нову Firebase: перший арґумент повинен бути дійсною URL-адресою firebase, а шлях не повинен містити ".", "#", "$", "[", Або]] - javascript, firebase

gulp-moup: компілюйте тільки на змінені файли (справа з "включає" і "розширює") - gulp, mops, gulp-watch

Як я можу виділити "A" після "B", але не підкреслити "B" себе? - gtksourceview

Відстеження пошти відкривається "До" АБО "CC" АБО "BCC" - електронна пошта, відстеження

Як прочитати з stdin int, використовуючи c ++, пропускаючи "," і "пробіл" до "n" [дублікат] - c ++

Як замінити "-" на "-" лише тоді, коли йому не передує "e"? - c #, regex, замінити

Різниця між "endl" та "n" [дублікат] - c + +, новий рядок, iostream, cout, endl

Помилка вставки "" HELLO "" і "" WORLD "" не дає дійсного токену попередньої обробки - c, c-preprocessor

Еквівалент "svn revert" або "git checkout" в Bitkeeper - біткітер