如何解决Elasticsearch:存储分隔符和令牌?
我所说的“分隔符”是指标记分隔符:通常是将标记本身分开的非字母数字文本的位。
我想这样做的原因是我想根据除大小写变体外相同的文本部分以及除标记之间的分隔符外相同的文本部分执行一些序列分析。
就此而言,我还希望能够“压平重音”,并在此基础上分析在其他方面相同的序列:我发现 ES 有一种方法可以做到这一点,“Ascii 折叠标记过滤器”。
与其编写自己的代码来执行此操作,使用 ES 索引中包含的信息似乎更有意义 - 特别是如果规定了术语向量,ES 会完成大量所需的工作。但是,如果我实际上无法找到一种分析分隔符差异的方法,那么这个想法就不那么有希望了。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。