/ / Достъп до файлове, които започват с подчертаване в apache spark - hadoop, apache-spark

Достъп до файлове, които започват с подсказка в apache spark - hadoop, apache-spark

Опитвам се да вляза в gz файлове на s3, които започват с _ в Apache Spark. За съжаление искрите считат тези файлове за невидими и се връщат Input path does not exist: s3n:.../_1013.gz, Ако премахна долната черта, ще намери файла добре.

Опитах се да добавя персонализиран Филтър на Пътя към hadoopConfig:

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

но все още имам същия проблем. Някакви идеи?

Система: Apache Spark 1.6.0 с Hadoop 2.3

Отговори:

2 за отговор № 1

Файловете започнаха с _ и. са скрити файлове.

И hiddenFileFilter винаги ще се прилага. Добавя се вътрешно org.apache.hadoop.mapred.FileInputFormat.listStatus

проверете този отговор, кои файлове се игнорират като вход от mapper?