微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 Windows 10 操作系统中使用 Pyspark 的错误流元数据

如何解决在 Windows 10 操作系统中使用 Pyspark 的错误流元数据

我正在尝试从 Twitter API 流式传输数据,但无法执行代码

以下是代码片段和错误。如果有人可以在这里提供帮助,请告诉我是什么问题。

代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql import functions as F


if __name__ == "__main__":

    # create Spark session
    spark = SparkSession.builder.appName("TwitterSentimentAnalysis").getorCreate()

    # read the tweet data from socket
    tweet_df = spark \
        .readStream \
        .format("socket") \
        .option("host","127.0.0.1") \
        .option("port",3333) \
        .load()

    # type cast the column value
    tweet_df_string = tweet_df.selectExpr("CAST(value AS STRING)")


    # split words based on space,filter out hashtag values and group them up
    tweets_tab = tweet_df_string.withColumn('word',explode(split(F.col('value'),' '))) \
        .groupBy('word') \
        .count() \
        .sort('count',ascending=False). \
        filter(F.col('word').contains('#'))



    # write the above data into memory. consider the entire analysis in all iteration (output mode = complete). and let the trigger runs in every 2 secs.
    writeTweet = tweets_tab.writeStream\
    .outputMode('complete')\
    .format('console')\
    .start()

    print("----- streaming is running -------")

错误

错误错误流元数据:写入流元数据时出错 流元数据(ea206b0f-718b-49f5-bd97-9e7488f643cd)到 文件:/C:/Users/aakash%2520uppadhaya/AppData/Local/Temp/temporary-41057c59-fcac-4d2e-9a71-a6e53c57c2ec/Metadata java.io.FileNotFoundException:文件文件:/C:/Users/aakash%2520uppadhaya/AppData/Local/Temp/temporary-41057c59-fcac-4d2e-9a71-a6e53c57c2ec 不存在

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。