如何解决Spark RDD 连接操作以 stackOverFlow 结束
使用 Scala,我尝试加入以下类型的 2 个 RDD:
case class Posting(postingType: Int,id: Int,acceptedAnswer: Option[Int],parentId: Option[QID],tags: Option[String]) extends Serializable
以及以下用于实现的类型定义:
type Question = Posting
type Answer = Posting
type QID = Int
在第一阶段,我过滤 RDD[Posting] 以隔离问题和答案子集,依靠使用 postTypeId == 1 识别问题。id == QID 的答案具有 (a) postTypeId == 2 和 (b) parentId == QID。
然后我将结果映射到键值对,并尝试加入结果:
val answeRSSeq = postings.filter(p => p.postingType == 2)
val answersMap = answeRSSeq.map(a => (a.parentId.get,a))
val questionsSeq = postings.filter(p => p.postingType == 1)
val questionsMap = questionsSeq.map(p => (p.id,p))
val resultMap = questionsMap.join(answersMap)
对于加入操作,我收到“StackOverFlow”异常。
我怀疑,这与 Option[QID] 有关。如果是这样,我还不知道如何解决它。还是有其他原因?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。