Опитвам се да вляза в gz файлове на s3, които започват с _
в Apache Spark. За съжаление искрите считат тези файлове за невидими и се връщат Input path does not exist: s3n:.../_1013.gz
, Ако премахна долната черта, ще намери файла добре.
Опитах се да добавя персонализиран Филтър на Пътя към hadoopConfig:
package CustomReader
import org.apache.hadoop.fs.{Path, PathFilter}
class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])
но все още имам същия проблем. Някакви идеи?
Система: Apache Spark 1.6.0 с Hadoop 2.3
Отговори:
2 за отговор № 1Файловете започнаха с _ и. са скрити файлове.
И hiddenFileFilter винаги ще се прилага. Добавя се вътрешно org.apache.hadoop.mapred.FileInputFormat.listStatus
проверете този отговор, кои файлове се игнорират като вход от mapper?