手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
网络运维
设计教程
技术频道
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
data-mining
data-mining专题提供data-mining的最新资讯内容,帮你更好的了解data-mining。
python – 通过关注者排名在推文中查找主题的好算法?
我是数据挖掘和实验的新手.假设我有N个推特用户和我想找的东西是他们写的总体主题(基于推文).然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重.然后我想合并所有主题,如果有足够的相似但仍然通过推特计数保留权重.所以基本上是按权限排名的“重要”主题列表(用户的推特数量)例如,像news.google.com,但排名将基于负责主题的Twitter粉丝.
作者:佚名 时间:2019-05-16
是否有一个精心设计,维护的Java决策树学习库?
我需要一个Java决策树学习库.我看过jaDTi和Weka,但都没有达到现代标准的图书馆设计.例如,两者仍然在任何地方使用非通用Vector对象,并且既不能以编程方式提供训练数据,也希望从文件或数据库加载数据.最佳答案我建议你看看JBoost.
作者:佚名 时间:2020-01-04
nlp – 字节与字符与单词 – n-gram的粒度?
至少可以考虑使用3种类型的n-gram来表示文本文档: >字节级n-gram >字符级n-gram >字级n-gram 我不清楚哪一个应该用于给定的任务(聚类,分类等).我在某处读到,当文字包含拼写错误时,字符级别的n-gram优于字级n-gram,因此“Mary loves dogs”仍然类似于“Mary lpves dogs”. 选择“正确”表示还有其他标准需要考虑吗? 评估.选择表示的标准是
作者:佚名 时间:2019-10-09
java – 什么是WEKA中的集群评估?
当我们说我们正在评估WEKA frmework中的集群时,我们的意思是什么?聚类是一种无监督的对象分组方法.当我们说要评估结果时,我们的意思是什么?此外,除此之外,当我们说我们在训练数据本身之上评估集群时,这意味着什么? 谢谢 阿布舍克 正如在 this页面上所写: 评估 Weka评估聚类的方式取决于您选择的聚类模式.有四种不同的群集模式可用(作为群集模式面板中的按钮): >使用训练集(默认).生
作者:佚名 时间:2020-01-15
数据挖掘 – 词干对术语频率的影响?
术语频率(TF)和反向文档频率(IDF)如何受到停止词删除和词干的影响? 谢谢! tf是术语频率 idf是逆文档频率,它是通过将文档总数除以包含该项的文档数得到的,然后取该商的对数. 词干效应是对从同一词干派生的所有单词进行分组(例如:播放,播放,…),这种分组会增加此词干的出现,因为频率是用词干计算的, 例如,如果您有2个文档: 第一个包含’游戏’2次和’玩’5次, 第二个文件包含“播放”3次和
作者:佚名 时间:2019-12-08
屏幕抓取 – 一个很好的Web数据提取/屏幕抓取程序?
我需要定期从网站上获取产品数据,并想知道是否有人知道一个好的软件程序?我已经试用了 Mozenda 但从长远来看,它每月订阅并且价格昂贵.显然,免费的东西是最好的,但我也不介意付钱.只需要一个可靠且不需要太多编程知识的体面计划. 如果你知道python,你可以试试ScraperWiki.com.
作者:佚名 时间:2019-06-30
nlp – 潜在Dirichlet分配与文档聚类之间的关系
我想澄清潜在的Dirichlet分配(LDA)与文档聚类的通用任务之间的关系. LDA分析倾向于输出每个文档的主题比例.如果我的理解是正确的,这不是文档聚类的直接结果.但是,我们可以将此概率比例视为每个文档的特征代表.之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法. 我的理解是否正确?谢谢. 是的,您可以将LDA的输出视为文档的功能;这正是Blei,Ng和Jordan在 pap
作者:佚名 时间:2019-06-26
您在k-means和EM中选择最佳聚类数的方法是什么?
许多用于聚类的算法是可用的.流行的算法是K-means,其中基于给定数量的聚类,算法迭代以找到对象的最佳聚类. 您使用什么方法来确定k-means聚类中数据中的聚类数? R中可用的任何包都包含用于确定正确数量的聚类的V-fold交叉验证方法. 另一个很好使用的方法是期望最大化(EM)算法,其向每个实例分配概率分布,其指示其属于每个集群的概率. 这个算法是否在R中实现? 如果是,可以选择通过交叉验证
作者:佚名 时间:2019-06-17
oracle – DBMS_DATA_MINING.CREATE_MODEL在11.2.0.1.0 64b上导致“ORA-40103:invalid case-id列:TID”,但是在10g OK
我在版本11.2上有DBMS_DATA_MINING.CREATE_MODEL的问题.在10g上,这段代码可以正常工作,而且我十分确定在11.1它也可以工作. CREATE OR REPLACE VIEW "SH"."ITEMS" AS SELECT PROD_ID AS item FROM SALES GROUP BY PROD_ID; CREATE OR REPLACE VIEW "SH"."
作者:佚名 时间:2020-06-30
java – Weka中FP增长的数据需求是什么?
我想在Weka的数据集(模型)上使用FP-Growth关联规则算法. 不幸的是,这个算法是灰色的.为了使用它,我必须先遇到什么先决条件? 那么对于那些降级这个问题的人来说 – 谢谢你的贡献,做得很好. 答案/解决方案: > Weka实现的每个算法都有一些与之相关的摘要信息.为了从GUI中看到它,必须单击算法(或过滤器)选项,然后再次单击“功能”按钮.然后一个小的弹出窗口将显示包含有关特定算法的一些
作者:佚名 时间:2019-06-07
java – 有没有理由更喜欢数据挖掘项目的函数式编程?
我正在研究启动数据挖掘项目的可能性,该项目将包括密集的计算和数据转换,并且应该相对容易扩展. 根据您的经验,选择对该项目至关重要的编程语言? 例如,如果我已经在JVM环境中工作,我应该更喜欢Clojure而不是普通Java吗?功能环境是否保证更容易扩展?更好的性能? 抛开其他因素,如熟悉语言,工具链等.在您的经验中,语言的选择是否至关重要? 为数据挖掘项目选择函数式编程有几个很好的理由. >通常是
作者:佚名 时间:2019-05-12
机器学习 – 如何处理C4.5(J48)决策树中缺少的属性值?
使用Weka的C4.5(J48)决策树处理缺失特征属性值的最佳方法是什么?在训练和分类期间都会出现缺失值的问题. >如果培训实例中缺少值,假设我放置’?’,我是否正确?功能的价值? >假设我能够成功构建决策树,然后从Weka的树结构中用C或Java创建自己的树代码.在分类时,如果我尝试对新实例进行分类,我会为具有缺失值的功能赋予什么价值?如何将树下降到我具有未知值的决策节点? 使用Naive Ba
作者:佚名 时间:2019-05-05
c# – 创建对象的可比较和灵活的指纹
我的情况 说我有数以千计的对象,在这个例子中可以是电影. 我以许多不同的方式解析这些电影,收集参数,关键字和统计资料.我们叫他们的钥匙我还为每个键分配一个权重,范围从0到1,具体取决于频率,相关性,强度,分数等. 举个例子,这里有一些关键和重量的电影“世界末日”: "Armageddon" ------------------ disaster 0.8 bruce willis 1
作者:佚名 时间:2019-06-11
数据库 – 检索人口密度数据
我需要弄清楚一个地点是否被认为是城市或乡村.我认为,最好的办法是看城市/州/省/国家组合的人口密度. 踢球者是我们将其用于数据挖掘.通常,可以执行此操作的映射API要求每个请求必须响应单个用户操作.这不符合使用Web服务的条件,我们将为任何单个用户操作制作数百个Web服务调用.所以我认为我们无法真正使用Google Maps API. 问题是,有什么可用的?有没有可以下载的数据库,我可以用来检索这
作者:佚名 时间:2020-06-08
将MIT-BIH心律失常ECG数据库加载到MATLAB上
我正在使用涉及模式识别的神经网络进行ECG信号处理. 由于我需要从Matlab收集所有数据,将其用作测试信号,所以我发现很难把它加载到Matlab. 我正在使用MIT心律失常数据库 here. 该信号需要索引并以Matlab兼容格式存储为数据结构. 目前,信号是.atr和.dat格式. 如何将MIT-BIH心律失常数据库加载到Matlab? 您可以使用physionet ATM获取更容易使用的.m
作者:佚名 时间:2020-06-07
数据库分析架构
我们有一个架构,我们为他们的网站(互联网商家)提供每个客户类似商业智能的服务.现在,我需要在内部分析这些数据(用于算法改进,性能跟踪等),而这些数据可能相当沉重:我们有高达数百万行/客户/天,我可能想知道有多少个查询我们在最后一个月,每周比较,等等,这是数十亿条目的顺序,如果不是更多. 当前完成的方式是非常标准的:扫描数据库的日常脚本,并生成大型CSV文件.我不喜欢这个解决方案有几个原因: >与这
作者:佚名 时间:2020-05-30
上一页
6
7
8
9
10
11
12
13
14
下一页
小编推荐
苹果市值2025年有望达4万亿美元
• 苹果iPhone屏幕划痕如何去除?7个法子可
• iPhone SE 4首发!苹果自研5G基带第一个
• 史无前例:iPhone 16系列电池容量公布
• 首批iPhone 16在路上了!苹果已发货 明
• 绝!iPhone16开卖:北京上海用户暴雨中
• iPhone 18用上台积电2nm芯片!但苹果又
• 粉碎不支持iPhone谣言!微信官宣:朋友
热门标签
更多
python
JavaScript
java
HTML
PHP
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot