我正在尝试将符号化字符串变成ngram.奇怪的是,在
NGramTokenizer的文档中,我没有看到将返回被标记化的各个ngram的方法.实际上,我在NGramTokenizer类中只看到两个返回String对象的方法.
Reader reader = new StringReader("This is a test string"); NGramTokenizer gramTokenizer = new NGramTokenizer(reader,1,3);
解决方法
我不认为你会发现你正在寻找寻找方法返回String.你需要处理
Attributes.
应该工作的东西像:
Reader reader = new StringReader("This is a test string"); NGramTokenizer gramTokenizer = new NGramTokenizer(reader,3); CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class); gramTokenizer.reset(); while (gramTokenizer.incrementToken()) { String token = charTermAttribute.toString(); //Do something } gramTokenizer.end(); gramTokenizer.close();
一定要重置()令牌,如果它需要重新使用后,虽然.
每个意见令牌组合,而不是字符:
Reader reader = new StringReader("This is a test string"); TokenStream tokenizer = new StandardTokenizer(Version.LUCENE_36,reader); tokenizer = new ShingleFilter(tokenizer,3); CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class); while (tokenizer.incrementToken()) { String token = charTermAttribute.toString(); //Do something }
原文地址:https://www.jb51.cc/java/126636.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。