微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

基于Spark的电影推荐系统总述

基于Spark的电影推荐系统总述

推荐系统介绍

推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。
随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。
为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。(百度百科)
而电影推荐系统同样也是推荐系统里的一大巨头。

电影推荐系统

随着近些年来人们生活的物质水平越来越好,于是电影成为了人们不可或缺的精神粮食,可是对于海量的电影里如何找到自己喜欢的合适的电影就成了一大问题,于是电影推荐系统应运而生,电影推荐系统本质上与电商的推荐系统没太大区别,都是基于大量数据然后进行数据挖掘之后得到有价值的数据。

项目基本介绍

首先一个完整的spark推荐系统需要有这么一个流程:
业务系统——>日志——>flume——>kafka——>Spark-Streaming——>入库
在这里,我不考虑业务系统,因为那是前端和后端的工作,只考虑大数据处理部分。
众所周知,推荐系统的核心都是数据挖掘也就是机器学习的算法,而这些算法都是需要大量的数据进行支撑,所以我们一个项目在进行大数据处理时,前提是有大量的数据,不然会有冷启动问题,所以我们就得对旧有的数据进行处理,这就引出了离线部分的处理,这个项目离线的模块有:
1.离线统计推荐模块(基于离线数据的一些简单统计进行推荐)
2.离线个性化推荐模块(使用LFM模型的ALS算法进行数据挖掘后推荐)
3.基于内容的推荐模块(使用TF-IDF模型,Item-CF)
以及实时推荐的模块:
实时个性化推荐模块(基于离线个性化推荐模块的数据,使用推荐优先度算法)

在有了海量数据处理的结果上,进行实时的推荐计算。

然后我的数据存在hbase和hive上,总的框架是
flume+kafka+hive+spark+hbase

话不多说,开始正文吧。
基于spark的电影推荐系统——模块(1)离线统计推荐

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐