Помощ при програмиране, отговори на въпроси / R / Грешка при импортиране на данни чрез източник (), използвайки Æ като сепаратор в R - r, read.csv

Грешка при импортиране на данни чрез източник (), използвайки Æ като сепаратор в R - r, read.csv

Така че това е необяснима грешка за мен и бих предложил, че е бъг, ако никой няма обяснение:

Имам следния код за импортиране на файл в R:

rm(list = ls())
library(data.table)
DT <- data.table(read.csv("file.csv", header=TRUE, sep = "Æ", quote = "", dec = ",", stringsAsFactors=TRUE, row.names = NULL))

Което работи перфектно. Винаги изнасям данните от Access посредством Æ като сепаратор, защото е хубав характер, който никога не се появява в моите файлове.

Сега за грешката:

Когато създам нов файл ( "Import.r") с кода:

DT <- data.table(read.csv("file.csv", header=TRUE, sep = "Æ", quote = "", dec = ",", stringsAsFactors=TRUE, row.names = NULL))

И използвайте източника в оригиналния код:

rm(list = ls())
library(data.table)
source("import.r")

Получавам грешката:

Error in scan(file, what = "", sep = sep, quote = quote, nlines = 1, quiet = TRUE,  :
invalid "sep" value: must be one byte

Интересното е, че ако не използвам Æ като сепаратор, но | тя работи перфектно при зареждането на файла. Така че грешката очевидно е причинена от използването Æ като сепаратор (както е посочено в грешката така или иначе).

Но как една и съща команда за импортиране може да работи добре, когато се извика директно, но връща привидно несвързана грешка, когато се обажда чрез source()?

РЕДАКТИРАНЕ: Четенето на героя чрез различни кодировки връща различни резултати:

> readLines(textConnection("Æ",encoding="utf-8"))
[1] "Ã†"
> readLines(textConnection("Æ"))
[1] "Æ"

обстановка UTF-8 кодиране в кода, както Джеймс предложи в отговора си странно работи и файлът се импортира правилно.

Отговори:

1 за отговор № 1

Изглежда, че това е въпрос на кодиране. При четене Æ чрез текстова връзка с utf-8 кодиране получавате 2 знака, връщани:

readLines(textConnection("Æ",encoding="utf-8"))
[1] "Ã†"

Странно обаче, задаването на utf-8 като кодиране при снабдяване позволява данните да се четат правилно.

Свързани въпроси

Интерактиране на мишката със сепаратор на менютата - visual-c ++, mfc

Импортирането на данни чрез SQL Server Import Wizard води до странни знаци - sql, sql-server

SSIS импортира допълнителни десетични стойности в целевата sql таблица от excel - sql-server, ssis, etl

Импортирането на CSV файл в SQLITE3 води до мигащ курсор без действие! - sqlite, sqlite3

Премахване на нива в рамката за данни при импортиране на csv данни - r, csv

Грешка при импортиране на Python модул от папки - python, python-2.7, пакети

PHP loop foreach определя втората и третата итерация - php, масиви, foreach

Openx зададе множество стойности на параметъра източник - параметри, openx

Odoo Грешка при закръгляването - хиляда сепаратора - odoo, odoo-8

как да промените zenity вход сепаратор - linux, shell, zenity

Разделяне на файл с AWK на Mac OS X - linux, macos, awk

Промяна на "f: convertNumber" знак за десетичен разделител [дубликат] - jsf

Грешка: java.io.IOException: Дръжката е невалидна - java, apache-commons-io

Mirth свържете javascript четец - javascript, веселие

Получаване на грешка при импортиране на картографиране върху Informatica - данни-склад, информатика

Как да конвертирате това парче код в Generics? - c #, генерични, разширителни методи

Разделени разширения за низи за Unity 3D - c #, unity3d

Как да разделяме QString на отделни знаци и да създаваме нов? - c ++, qt, qstring

Как да четете редове и колони чрез awk със специален сепаратор на знаци - bash, unix, awk

Как мога да задам стойност на символа ANTLR от входен параметър? - antlr4, синхронизиращ генератор