技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

algorithm – 通过字符串相似性对搜索结果进行分组的最有效方法

时间：2020-10-15分类：大数据作者：编程之家

我正在研究sql server 2008 DB和asp.net mvc web电子商务应用程序.

我有不同的用户将他们的产品提供给数据库,我想比较具有相似名称的产品的价格.
我知道字符串匹配是特定于域的,但我仍然需要最好的通用解决方案.

对搜索结果进行分组的最有效方法是什么？
我应该使用Levenshtien distance算法递归地比较每个记录吗？
我应该在数据库中还是在代码中执行此操作？
有没有办法为此任务实时实施SSIS模糊分组？
有没有一种有效的方法来使用sql server 2008自由文本搜索？

编辑1：
那么网络图分析呢.如果我使用Levenshtien distance算法定义矩阵,我可以使用聚类算法(例如：clauset newman moore)和单独的组,它们之间没有语音路径.
我附上了尼克约翰逊(见评论)猫狗(例如红线是簇) – 并且通过使用clauset newman moore,我正在创建2个不同的簇并从狗中分离猫.

你怎么看？

解决方法

如果你能得到一个合适的词库/本体,基本上可以提供最好的聚类 – 因为词是概念树中的叶子,树中的距离是语义意义上的词之间的距离.因此,猫和狗几乎不像虎斑猫和猫科动物(猫),但它们比猫和香蕉更接近,猫和香蕉本身比猫(n.)和跳跃(v.)更接近.

允许小的拼写错误(通过查找词库中用于非词语的类似拼写的单词)可以提高稳健性,但是也可能由于同音异义词而产生意外结果.

至于在数据库或代码中执行它,请在代码中执行.在可以缓存的范围内,这将更快.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：kubectl exec 遇到Error from serv 下一篇：如何使用4GB RAM提取文件> 10 G

相关推荐

大数据分析案例-基于随机森林模型对北京房价进行预测

自1998年我国取消了福利分房的政策后，房地产市场迅速开展蓬勃起来。同时，随着社会经济的快速开展，居民的经济条件越来越好，住房条件也在不断地提升。而住房是人民根本生活的保障，也是-一个家庭最重要的资产,从一定的层面.上反映了一个家庭整体的生活水王,多方面的因素使得房地产行业在短时间开展成为我国的支柱产业之一;成为了切实关乎人民生活和利益的重要产业。然而，随着房地产行业的开展，问题也慢慢突显出来，房价一直居高不下成为了一个大问题。作为国家的支柱产业,房地产的稳定发展关乎国计民生。近几年，房

作者：艾派森时间：2022-12-20

机器学习实战——房价预测完整案例建议收藏慢慢品

文章目录获取数据查看数据结构获取数据下载数据可以直接通过浏览器下载压缩包，也可以通过函数来进行。import osimport tarfileimport urllib.requestDOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"HOUSING_PATH = os.path.join("datasets", "housing") # datasetstestHOUSING_

作者：Dream丶Killer 时间：2022-12-19

网上商城系统MySql数据库设计项目实战

网上商城系统MySql数据库设计

作者：胖哥真不错时间：2022-12-19

常见气象数据获取方式及批量下载代码汇总

26个来源的气象数据获取代码

作者：qazwsxpy 时间：2022-12-19

毕业设计基于大数据的共享单车数据分析与可视化

作者：DanCheng-studio 时间：2022-12-19

大数据分析案例-对电信客户流失分析预警预测

在进入21世纪以来，中国电信业告别了20世纪最后阶段的高速发展状态，转而进入稳步发展阶段。近年来，随着通信的成本逐年下降，电信市场用户覆盖率近乎100%，几乎没有可开发的新市场，移动、联通、电信三大电信企业完全占据了电信服务市场，电信行业的不断进步，使得各大电信运营商自身服务体系不断完善，目前我国的三大运营商均实现了全业务经营，这意味着行业内存在产品、服务、模式等方面的高度同质化，企业间难以实现差异化竞争优势。现如今的竞争环境，迫使运营商的经营重点向有利于电信消费者的方向移动，为了维持客户的保有量，对

作者：艾派森时间：2022-12-19

卡尔曼滤波

目录1.卡尔曼滤波入门2.学卡尔曼滤波的必备知识2.1.状态空间表达式2.2.高斯分布2.3.方差2.4.超参数2.5.卡尔曼直观图解3.卡尔曼滤波3.1.卡尔曼公式理解3.2.调节超参数3.2.1.Q和R的取值3.2.2.P0和X0的取值3.2.3.卡尔曼滤波的使用...

作者：随风张幔时间：2022-12-19

Python大数据-电商产品评论情感数据分析

一、项目背景网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品并购物，产生了海量的用户行为数据，用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，同时，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。分析产品：韶音 AfterShokz Aeropex AS800骨传导蓝牙耳机运动无线耳骨传导耳机跑步骑行环法特别版（Aeropex AS800是AfterShokz韶音的网红新品，很多国内外

作者：你隔壁的小王时间：2022-12-19

大数据项目之电商数仓、Maxwell使用、 Maxwell启停脚本、增量数据同步、历史数据全量同步、采集通道Maxwell配置、通道测试

但有时只有增量数据是不够的，我们可能需要使用到MySQL数据库中从历史至今的一个完整的数据集。这就需要我们在进行增量同步之前，先进行一次历史数据的全量同步。这样就能保证得到一个完整的数据集。1）第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据，是bootstrap开始和结束的标志，不包含数据，中间的type为bootstrap-insert的数据才包含数据。2）一次bootstrap输出的所有记录的ts都相同，为bootstrap开始的时间。

作者：Redamancy_06 时间：2022-12-06

[Hive]一篇带你读懂Hive是什么

✅作者简介：大家好,我是Philosophy7？让我们一起共同进步吧！

作者：Philosophy7 时间：2022-12-06

小编推荐

苹果市值2025年有望达4万亿美元