如何解决如何从字符串列表中识别多个常见的 ngram,这些 ngram 从索引 0 或索引 -1 开始?
假设我有一个如下所示的示例列表:
["Uptake","Update","Uphold","Backdoor","Backup","Outdate","Retake","Intake","Backhold","Topup","Outdate"]
识别和创建一组子字符串的最佳方法是什么,例如 "Up","Out","Back"
,它将被识别为属于原始字符串的开头,而 "Take","Hold","Up"
但被标记为属于原始字符串的结尾部分?
我有用于从原始字符串中的任何位置创建最长公共子字符串的代码,并将这些 LCS 填充到字典中,但我很难想出更有用的方法来做到这一点。
我在使用太少的字符时遇到了陷阱,例如 "Ba"
中的 "Backdoor","Backup"
。我正在寻找的是模仿一种方式的东西,该方式理解“Back”是三个原始字符串的主要组成部分。
我的最终目标是将这些有用的子字符串用作搜索输入,以便在单独的系统中进行后续发现,例如查找遵循类似命名约定的互联网域组。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。