原来代码:
finalDf.rdd.repartition(100).foreach(itm => {
val InsertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3))
//单条插入:
mongoConn.withCollectionDo(new WriteConfig(databaseName,
ResultCol, Option(MongoConn)), { col: MongoCollection[Document] => col.insertOne(InsertOne) })
})
修改后:
val insertRdd = finalDf.rdd.coalesce(100).map(itm => {
val insertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3))
insertOne
})
//批量写
MongoSpark.save(insertRdd)
由于是从s3上往阿里云的mongo上插入,通过ping命令,知道ping一次大概要2ms,如果单条查,每一次插入相当于一次ping,时间都花在了网络上
,另外批量插入,mongo的压力也小,如图1.为批量插入
图2位单条插入
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。