如何解决Spark 和 CouchDB 的大数据
我将 spark 2.4.0 与“org.apache.bahir - spark-sql-cloudant - 2.4.0”一起使用 我必须将所有 json 文件从 couchDB 下载到 hdfs。
val df = spark
.read
.format("org.apache.bahir.cloudant")
.load("demo")
df.persist(StorageLevel.MEMORY_AND_disK)
df
.write
.partitionBy("year","month","day")
.mode("append")
.parquet("...")
总文件大小为 160GB(> 1300 万个文件) 运行 5 分钟后 Spark 作业出错
引起:com.cloudant.client.org.lightcouch.CouchDbException:检索服务器响应时出错
增加超时时间没有帮助,但稍后会下降 有什么办法摆脱困境?
解决方法
使用另一个端点进行查询,对_all_docs使用_changes帮助了我
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。