微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

有没有办法使s3对象中的Spark Structured Streaming监视器版本更改?

如何解决有没有办法使s3对象中的Spark Structured Streaming监视器版本更改?

所以我有一个文件s3a://some-bucket/streaming/csv/file.csv,其中包含以下内容

name,number
John Doe,1

我正在运行的代码是:

userSchema = StructType().add('name','string').add('number','integer')

default_path = "s3a://some-bucket/streaming"

df = (spark.readStream
      .format("csv")
      .schema(userSchema)
      .load(f"{default_path}/csv/")
)

squery = (df.writeStream
    .format("parquet")
    .option('mode','update')
    .option("checkpointLocation",f"{default_path}/checkpoint/")
    .option("path",f"{default_path}/parquet/")
    .start()
)

问题是,是否有一种方法可以上传具有相同名称内容不同的文件并进行更改? 即: s3a://some-bucket/streaming/csv/file.csv

name,2

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。