Pomoc pri programovaní, odpovede na otázky / rubín / Ruby: nekompatibilná zhoda regulárneho kódovania - ruby

Ruby: nekompatibilné kódovanie regexp zápas - rubín

Mám problém, ktorý Ruby odmietarozdeliť reťazec, ktorý obsahuje určitý latinský znak (a pravdepodobne by mal problémy s ostatnými). Viem o tejto konkrétnej chybe veľa príspevkov, ale žiadna z odpovedí pre mňa nefungovala.

Problém som zovrel na nasledujúci príklad. Toto je celý skript, ktorý spôsobuje problém. Samotný skript je v utf-8.

#!/usr/bin/ruby
str = "é"
arr = str.split(/x/sm)

Tento znak v druhom riadku je latinčinamalé e s akútnym. (Áno, viem, že pretože reťazec neobsahuje reťazec „x“, nedá sa veľa rozdeliť, je to len príklad na vytvorenie chyby.)

Toto je chybové hlásenie, slovo zabalené pre vašu bezpečnosť a pohodlie:

./dev.rb:3:in `split": incompatible encoding regexp match
(Windows-31J regexp with utf-8 string) (Encoding::CompatibilityError)
from ./dev.rb:3:in `<main>"

Pokúsil som sa kódovať reťazec bezvýsledne. Ani jeden z nasledujúcich riadkov nepomáha:

str = str.force_encoding("iso-8859-1").encode("utf-8")

alebo

str = str.force_encoding(Encoding::UTF_8)

Tu je verzia Ruby I pomocou:

ruby 2.3.1p112 (2016-04-26) [x86_64-linux-gnu]

Akákoľvek pomoc je vítaná.

odpovede:

1 pre odpoveď č. 1

Stačí zakódovať regulárny výraz v utf-8:

str = "é"
arr = str.split(/x/mu)
#=> ["é"]

dokumentácia: https://ruby-doc.org/core-2.3.1/Regexp.html#class-Regexp-label-Encoding

Súvisiace otázky

Existuje skratka pre priradenie z $ 1 ... $ n po zhody v rubíne - rubíne

Predvolené externé kódovanie v rubíne 2.1 - ruby, kódovanie

Ruby: Prečo dostávam varovanie "regex literal in condition" tu? - rubín

Ruby regulárne výrazy sa zhodujú s každým kľúčovým slovom - ruby, regex, parsovanie

Ruby: neurčený regexp spĺňa koniec súboru - rubín

Aký vplyv má rubínový regulárny výraz `n`? - rubín, regex

Ruby Regexp: Ako porovnať časti reťazca oddelené nejaké slovo - ruby, regex

Ako môžem opraviť tento regex, ktorý extrahuje ID tweetu z webovej adresy Twitter? - rubín, regex

Dostávam "kódovanie nezlučiteľných znakov: CP850 a utf-8" pri zobrazovaní symbolu £ na mojej ramaze app - ruby, kódovanie, pamäť

Ruby 2.4.1 Nemožno čítať špeciálne znaky zo stdin ruby

Odstrániť-UTF znaky z reťazca v Ruby? - ruby, regex, reťazec

Prečo Ruby nie Symbol # = ~ (operátor regex zápasov)? - rubín

Ruby: Využite podmienku stavu v podmienkach bloku - ruby, regex

rubín: pri použití Regexp.union (array) pridať hranice b? - rubín na koľajniciach, rubín, regex, rubín na koľajniciach-4

Rails kódovanie utf-8 chyba v collection_select - ruby-on-rail, ruby, ruby-on-rail-3, kódovanie, utf-8

Ako opravím "Nekompatibilné kódovanie znakov: utf-8 a ASCII-8BIT"? - ruby na koľajniciach, ruby, kódovanie

Rails admin kódovanie chyba, keď sa snažím použiť 'windows-1250' - rubínovo-na-koľajnice, rubín, kódovanie, utf-8, koľajnice-admin

Ruby Je reťazec prítomný v inom reťazci (pomocou regexp)? - rubín na koľajniciach, rubín

Regexp sa nezhoduje s utf8 znakmi v slovách (w +) [duplicitné] - ruby-na-rail, ruby, regex

Koľajnice: fb_connect_async_js vyvoláva 500 chýb - rubíny na koľajniciach, ruby, kódovanie, facebooker2