我是数据挖掘和实验的新手.
假设我有N个推特用户和我想找的东西
是他们写的总体主题(基于推文).
然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重.
然后我想合并所有主题,如果有足够的相似但仍然
通过推特计数保留权重.
例如,像news.google.com,但排名将基于负责主题的Twitter粉丝.
我更喜欢python中的一些东西,因为那是我最熟悉的语言.
有任何想法吗?
谢谢
编辑:
这是我正在尝试做的一个很好的例子(但是有差异数据)
http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858
基本上分析各种数据及其相互关系:工作类别和每个人的年龄或单词类别和朋友数量,如本例所示.
你需要考虑的一些事情:
>定义“主题”:这是他们使用的标签吗?你是否对标签进行分组你有一个有限集的小名单,或者是无限制的集合?
>定义“一般主题”:这是最常用的主题吗?你是如何处理关系的?如果用户写了大约10个主题,那么呢?
>定义“权重”:这相当于用户数量?平方根?有些类别?
如果您对此有一个大致的了解,可以开始使用tm package以可行的格式提取所有信息.该包基于矩阵和元数据对象.这些允许您获得不同主题的加权频率,前提是您已定义了您认为的主题.您还可以使用不同的加权函数来获得所需的内容.手册是here.但如果您不确定自己在做什么,也请访问crossvalidated.com获取额外的指导.这实际上是关于数据挖掘的问题而不是关于编程的问题.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。