Допомога у програмуванні, відповіді на питання / Іспака Апачі / Spark / S3 Імпорт даних - apache-spark, кущ, pyspark

Іскра / S3 Імпортування даних - apache-іскр, вулик, піспарк

Я розвернув кластер Spark з 10 рабами, і зробив наступне.

export AWS_ACCESS_KEY_ID=**key_here**
export AWS_SECRET_ACCESS_KEY=**key_here**

cd spark/bin
./pyspark

logs = sqlContext.read.json("s3n://file/path/2015-11-17-14-20-30")

Нижче я отримав таку помилку.

Виняток: ("Ви повинні побудувати Spark разом з Hive. Експортувати "SPARK_HIVE = true" і запустити збирання / sbt ", Py4JJavaError (u" сталася помилка під час виклику None.org.apache.spark.sql.hive.HiveContext.n ", JavaObject id = o23))

Я не впевнений, що інші кроки, які я "D" повинні прийняти, як тільки я експортувати іскровий кущ змінної, або де знайти папку build / sbt.

Відповіді:

1 для відповіді № 1

Доступ Spark S3 побудований на S3 доступу Hadoop - якщови побудували Spark самостійно (схоже на випадок) перекомпілювати за інструкціями (SPARK_HIVE = true як змінну середовища і потім знову запустити sbt). інакше завантажте версію іскри "готовий для Hadoop"

Схожі запитання

Помилка при інстанціі 'org.apache.spark.sql.hive.HiveSessionState': на сервері Linux - scala, hadoop, apache-іскр, вулик

Які рядки я повинен додати до spark-defaults.conf, щоб мати можливість використовувати фенікс з pyspark? - python, pyspark, hortonworks-data-platform, phoenix

PySpark і HIVE / Impala - вулик, піскар, логістична регресія, імпала

Не вдається отримати доступ до стандартної бази даних в pyspark - hive, pyspark

Зберігання даних avro в форматі ORC в HDFS з використанням HIVE - hasoop, apache-spark, avro, orc

Як вказати базу даних в SparkSQL над вуликом в Spark 1.3 - базі даних, apache-іскрі, вуликах, apache-spark-sql

Як завантажити залежність jar в Notebook Notebook - csv, apache-spark, pyspark, jupyter-notebook, pyspark-sql

Запит вулика за допомогою Pyspark повернути порожній результат - apache-іскр, вулик, піспарк

Користувальницькі розділи в Pyspark - apache-spark, pyspark, rdd

Іспанська установка Apache і db_metastore - apache-іскр

Читайте RC-файл pyspark 2.0.0 з S3 з розділами - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Чи можна використовувати apache-ignite rdd реалізацію в pyspark? - апач-іскрі, писпарк, запалити

Я отримую IllegalArgumentException при створенні SparkSession - apache-spark, pyspark, pyspark-sql

pyspark: NameError: ім'я 'spark' не визначено - apache-іскрі, машинознавство, pyspark, розподілені обчислення, apache-spark-ml

Підтвердження роботи Python для іскри віддалено - apache-іскри, pyspark

Дані запиту в підкаталогах розділів "Вулиця" з використанням Spark SQL - apache-spark, hive, apache-spark-sql, parket

Як прочитати файли ORC без метастаура в pyspark 2.0 - apache-spark, pyspark, orc

Гіб автоматично поставляється з Apache Spark - apache-spark, apache-spark-sql

Хо, щоб прочитати ".gz" стиснутий файл, використовуючи іскрові DF або DS? - apache-іскр, apache-spark-sql, spark-dataframe, gzip, apache-spark-data set

PySpark + jupyter notebook - apache-spark, pyspark