如何解决在SAS中模糊匹配大型数据集的更有效方法
我有一个包含3300万条包含名称字段的记录的数据集。我需要标记该名称字段值也出现在包含大约500万条记录的第二个数据集中的记录。出于我的目的,模糊匹配既可以接受,也可以是有益的。
我编写了以下程序来做到这一点。它可以工作,但是到目前为止已经运行了4天,所以我想找到一种更有效的编写方法。
proc sql noprint;
create table INDIV_MATCH as
select A.NAME,SPEDIS(A.NAME,B.NAME) as SPEDIS_VALUE,COMPGED(A.NAME,B.NAME) as COMPGED_SCORE
from DATASET1 A join DATASET2 B
on COMPGED(A.NAME,B.NAME) le 400 and SPEDIS(A.NAME,B.NAME) le 10
order by A.name;
quit;
任何帮助将不胜感激!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。