Ajuda na programação, respostas a perguntas / r / Erro ao importar dados via source () usando Æ como separador em R - r, read.csv

Erro ao importar dados via source () usando Æ como separador em R - r, read.csv

Então este é um erro inexplicável para mim e eu sugiro que seja um bug se ninguém tiver uma explicação:

Eu tenho o seguinte código para importar um arquivo para o R:

rm(list = ls())
library(data.table)
DT <- data.table(read.csv("file.csv", header=TRUE, sep = "Æ", quote = "", dec = ",", stringsAsFactors=TRUE, row.names = NULL))

O que funciona perfeitamente bem. Eu sempre exporte os dados do Access usando Æ como separador, porque é um bom caracter que nunca ocorre em meus arquivos.

Agora, para o erro:

Quando eu crio um novo arquivo ("import.r") com o código:

DT <- data.table(read.csv("file.csv", header=TRUE, sep = "Æ", quote = "", dec = ",", stringsAsFactors=TRUE, row.names = NULL))

E use fonte no código original:

rm(list = ls())
library(data.table)
source("import.r")

Eu recebo o erro:

Error in scan(file, what = "", sep = sep, quote = quote, nlines = 1, quiet = TRUE,  :
invalid "sep" value: must be one byte

Curiosamente, se eu não usar Æ como separador, mas | Funciona perfeitamente bem ao fazer o sourcing do arquivo. Então, o erro é aparentemente causado pelo uso Æ como um separador (como indicado no erro de qualquer maneira).

Mas como pode o mesmo comando import funcionar bem quando chamado diretamente, mas retornar um erro aparentemente não relacionado quando chamado via source()?

EDITAR: Ler o personagem usando codificações diferentes retorna resultados diferentes:

> readLines(textConnection("Æ",encoding="utf-8"))
[1] "Ã†"
> readLines(textConnection("Æ"))
[1] "Æ"

Configuração utf-8 codificação no código como James sugeriu em sua resposta funciona estranhamente e o arquivo é importado corretamente.

Respostas:

1 para resposta № 1

Parece ser um problema de codificação. Ao ler Æ através de uma conexão de texto com codificação utf-8 você recebe 2 caracteres retornados:

readLines(textConnection("Æ",encoding="utf-8"))
[1] "Ã†"

Estranhamente, no entanto, definir utf-8 como codificação quando a fonte permite que os dados sejam lidos corretamente.

Perguntas relacionadas

Interação do mouse com o separador de menu - visual-c ++, mfc

Importar dados usando o Assistente de Importação do SQL Server resulta em caracteres estranhos - sql, sql-server

SSIS importando valores decimais extras para a tabela sql de destino do excel - sql-server, ssis, etl

Importar o arquivo CSV no SQLITE3 resulta em um cursor piscando sem ação! - sqlite, sqlite3

Removendo Níveis no Quadro de Dados ao Importar Dados CSV - r, csv

Erro ao importar o módulo python de pastas - python, python-2.7, packages

O loop do PHP foreach determina a segunda e a terceira iteração - php, arrays, foreach

Openx definir vários valores para o parâmetro de origem - parâmetros, openx

Erro de arredondamento Odoo - mil separador - odoo, odoo-8

como alterar o separador de entrada do zenity - linux, shell, zenity

Dividindo um arquivo usando o AWK no Mac OS X - linux, macos, awk

Alterar o símbolo do separador decimal "f: convertNumber" [duplicado] - jsf

Erro: java.io.IOException: O identificador é inválido - java, apache-commons-io

Mirth conectar leitor de javascript - javascript, alegria

Obtendo erro ao importar o mapeamento no Informatica - data-warehouse, informatica

Como converter este trecho de código para genéricos? - c #, genéricos, métodos de extensão

Para extensões de strings delimitadas para Unity 3D - c #, unity3d

Como dividir QString em caracteres individuais e criar um novo? - c ++, qt, qstring

Como ler linhas e colunas via awk com separador de caractere especial - bash, unix, awk

Como posso definir um valor de token ANTLR a partir de um parâmetro de entrada? - antlr4, parser-generator