/ / Spark s3 read дає NullPointerException - amazon-s3, apache-spark

Іскра s3 читає дає NullPointerException - amazon-s3, apache-іскри

Я намагаюся обробляти файли з файлової системи S3. Я експортував AWS_ACCESS_KEY_ID та AWS_SECRET_ACCESS_KEY. Я також встановив конфігурацію

hadoopConf.set ("fs.s3.awsAccessKeyId", "") hadoopConf.set ("fs.s3.awsSecretAccessKey", "")

Помилка:

[error] (run-main-0) java.lang.NullPointerException
java.lang.NullPointerException
at org.apache.hadoop.fs.s3native.NativeS3FileSystem.listStatus(NativeS3FileSystem.java:479)
at org.apache.hadoop.fs.Globber.listStatus(Globber.java:69)
at org.apache.hadoop.fs.Globber.glob(Globber.java:217)
at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1642)
at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:257)
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228)
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:304)
at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)

build.sbt Мій build.sbt має такі залежності

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.5.1"

libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.4.0"

libraryDependencies += "net.java.dev.jets3t" % "jets3t" % "0.9.3"

Я використовую AWS IAM для ключів доступу. Я щось пропускаю?

Будь-яка допомога буде вдячна.

Відповіді:

1 для відповіді № 1

Без деталей, я збираюся стріляти наосліп і сказати, що ваш шлях URI недійсний.