Помощ при програмиране, отговори на въпроси / Hadoop / Достъп до файлове, които започват с подчертаване в apache spark - hadoop, apache-spark

Достъп до файлове, които започват с подсказка в apache spark - hadoop, apache-spark

Опитвам се да вляза в gz файлове на s3, които започват с _ в Apache Spark. За съжаление искрите считат тези файлове за невидими и се връщат Input path does not exist: s3n:.../_1013.gz, Ако премахна долната черта, ще намери файла добре.

Опитах се да добавя персонализиран Филтър на Пътя към hadoopConfig:

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

но все още имам същия проблем. Някакви идеи?

Система: Apache Spark 1.6.0 с Hadoop 2.3

Отговори:

2 за отговор № 1

Файловете започнаха с _ и. са скрити файлове.

И hiddenFileFilter винаги ще се прилага. Добавя се вътрешно org.apache.hadoop.mapred.FileInputFormat.listStatus

проверете този отговор, кои файлове се игнорират като вход от mapper?

Свързани въпроси

Intellisense в Intellij с искрови библиотеки - scala, apache-spark, intellij-idea

ClassNotFound Изключение Докато стартирате Java програма от apache Spark - java, hasoop, apache-spark, pyspark

Ново за Spark и Spark SQL с Java - java, apache-spark, apache-spark-sql, миграция на данни, bigdata

Скала код не съставя в SBT - Eclipse Maven изграждане - Java, скала, maven, Apache-искра, sbt

Инсталиране на искра на hadoop - hadoop, apache-spark, монтаж

Каква е ползата от използването на CDH (cloudera)? [затворен] - хайоп, bigdata, apache-spark, cloudera, cloudera-cdh

Грешка при Hadoop при използване на искра - подаване - hadoop, apache-spark, amazon-ec2, spark-ec2

Има ли официалния начин да се поддържат както Spark 1.6.2 и 2.0.0 на Hadoop прежда 2.7.2 клъстер? - хайоп, апаш-искра, прежда

Има ли начин Spark да чете AWS S3 файлове без да използва Hadoop? - хаоп, амазон-s3, apache-spark

искра 1.3 прочетете и пишете на hbase - apache-spark, hbase, rdd

Инсталирането на Apache и db_metastore - apache-spark

apache spark bluemix невъзможно - apache-spark, ibm-cloud

Apache Spark не вижда целия овен на моите машини - apache-spark, google-compute-engine, apache-spark-mllib

Spark / S3 Импортиране на данни - apache-spark, кошер, pyspark

Уеб потребител на Access Spark от отдалечен компютър (вкъщи)? - apache-spark

Защо искри стрийминг изпълнители започват в различно време? - Apache-spark, поток от искри, времева линия

Ако вече инсталирах Hadoop, трябва ли да изтегля Apache Spark WITH Hadoop или WITHOUT Hadoop? - apache-spark, hadoop, hadoop3

Spark sql работи, но изглежда, че без мениджър на клъстера е възможно? - apache-spark

Как да конфигурирате Spark running в локален режим на Amazon EC2, за да използвате правилата на IAM за S3 - amazon-web-services, amazon-s3, amazon-ec2, apache-spark-2.0

Spark s3 read дава NullPointerException - amazon-s3, apache-spark