如何解决匹配多列中的行,但忽略Rstudio中的NA
我正在使用Rstudio识别数据框中的重复帐户。 我想找到一种方法来识别某些列中的所有重复项,但是我遇到了NA问题。 在下面的代码行中,如果前两行的性别相同,但我希望这两行具有相同的首字母,最后一位,性别和性别,则我将其视为匹配项,因为我创建了is_duplicate标志,因此这两行不是重复的基于串联的匹配列。
有什么想法要对此进行调整吗?
Id-第一-最后-dob-性别-比赛-Is_duplicates
123-阿里-史密斯-1993-女- AliSmith1993女-0
435-阿里-史密斯-1993-不适用- AliSmith1993NA -0
解决方法
您是否尝试过使用agrep进行模糊匹配? https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/agrep
或者也许这篇文章对您有帮助?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。