如何解决拼写检查/DidYouMean 日语
寻找为日语(主要是)实施 Spellcheck/DidYouMean 的想法。 拼写检查的目标是搜索查询,搜索引擎建立在 solr 之上,但解决方案不受其约束。
到目前为止发现两个主要方法:
- 编辑字典的距离(SymSpell 等库)
- 统计,基于用户重写的查询
第一种方法对于汉字/假名似乎不太可行。 此外,它的原样结果非常嘈杂,并且为上下文拼写检查构建大量干净的 N-gram 很复杂(因此“空心世界”将被固定为“你好世界”)。 关于如何完成的任何建议?
第二种方法很复杂,因为它很难检测重写的查询,而且用户很少这样做或正确执行 - 很难收集此类统计信息。
到目前为止,我发现的主要文章/视频水平相当高且过于简单(对于编辑距离,它们没有提供适用于将噪声降低到合理水平的现实方法 - 95% 或更高)或只专注于英语。
欢迎任何已发表论文的指点:) 提前致谢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。