技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

c# – 在Lucene中搜索TokenStream字段

时间：2020-08-13分类：C#作者：编程之家

我刚刚开始使用Lucene,我觉得我必须对它有一个基本的误解,但是从样本和文档中我无法弄清楚这个问题.

我似乎无法让Lucene返回用TokenStream初始化的字段的结果,而用字符串初始化的字段工作正常.我正在使用Lucene.NET 2.9.2 RC2.

[编辑]我也尝试使用最新的Java版本(3.0.3)并看到相同的行为,所以它不是端口的一些怪癖.

这是一个基本的例子：

Directory index = new RAMDirectory();
Document doc = new Document();
doc.Add(new Field("fieldName",new StandardTokenizer(new StringReader("Field Value Goes Here"))));
IndexWriter iw = new IndexWriter(index,new StandardAnalyzer());
iw.AddDocument(doc);
iw.Commit();
iw.Close();
Query q = new QueryParser("fieldName",new StandardAnalyzer()).Parse("value");
IndexSearcher searcher = new IndexSearcher(index,true);
Console.WriteLine(searcher.Search(q).Length());

(我意识到这使用了不推荐使用2.9的API,但这仅仅是为了简洁…假装指定版本的参数在那里,我使用了一个新的搜索).

这不会返回任何结果.

但是,如果我替换添加字段的行

doc.Add(new Field("fieldName","Field Value Goes Here",Field.Store.NO,Field.Index.ANALYZED));

然后查询返回命中,正如我所料.如果我使用TextReader版本,它也有效.

两个字段都被索引和标记化,(我认为)是相同的标记器/分析器(我也尝试过其他字段),并且都没有存储,所以我的直觉是它们的行为应该相同.我错过了什么？

解决方法

我找到了答案是套管.

StandardAnalyzer创建的令牌流具有LowerCaseFilter,而直接创建StandardTokenizer不会应用此类过滤器.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：c# – 使用XmlDocument转义换行符下一篇：c# – 如何使用字符串列表进行查找

相关推荐

Blazor 调用 Clipboard API 读写剪贴板数据

目录简介使用JS互操作使用ClipLazor库创建项目使用方法简单测试参考链接简介 Clipboard API 是一种允许网页读取剪贴板数据或向其中写入数据的API，主要有两个方法： navigator.clipboard.writeText() ：用于将文本写入剪贴板。 navigator.cl

作者：二次元攻城狮时间：2024-10-15

C# 轻量级 ORM 框架 NPoco 的简单应用

目录简介快速入门安装 NuGet 包实体类User数据库类DbFactory增删改查InsertSelectUpdateDelete总结简介 NPoco 是 PetaPoco 的一个分支，具有一些额外的功能，截至现在 github 星数 839。NPoco 中文资料没多少，我是被博客园群友推荐的，

作者：二次元攻城狮时间：2024-10-15

C#简单配置类及数据绑定

本文实现一个简单的配置类，原理比较简单，适用于一些小型项目。主要实现以下功能：保存配置到json文件、从文件或实例加载配置类的属性值、数据绑定到界面控件。
一般情况下，项目都会提供配置的设置界面，很少手动更改配置文件，所以选择以json文件保存配置数据。

作者：二次元攻城狮时间：2024-10-15

C#获取Description特性的扩展类

C#中Description特性主要用于枚举和属性，方法比较简单，记录一下以便后期使用。扩展类DescriptionExtension代码如下： using System; using System.ComponentModel; using System.Reflection; /// <

作者：二次元攻城狮时间：2024-10-15

C#实现软件开机自启动（不需要管理员权限）

[TOC] # 原理简介本文参考[C#/WPF/WinForm/程序实现软件开机自动启动的两种常用方法](https://blog.csdn.net/weixin_42288432/article/details/120059296)，将里面中的第一种方法做了封装成**AutoStart**类，使

作者：二次元攻城狮时间：2024-10-15

C#爬取动态网页上的信息：B站主页

目录简介获取 HTML 文档解析 HTML 文档测试补充：使用 CSS 选择器参考文章简介动态内容网站使用 JavaScript 脚本动态检索和渲染数据，爬取信息时需要模拟浏览器行为，否则获取到的源码基本是空的。本文使用的爬取步骤如下：使用 Selenium 获取渲染后的 HTML 文档使

作者：二次元攻城狮时间：2024-10-15

C#项目管理引用的dll文件

这篇文章主要简单记录一下C#项目的dll文件管理方法，以便后期使用。设置dll路径参考C#开发奇技淫巧三：把dll放在不同的目录让你的程序更整洁中间的方法一：配置App.config文件的privatePath ： <runtime> <assemblyBinding xml

作者：二次元攻城狮时间：2024-10-15

C# 常用特性(Attribute)

使用特性，可以有效地将元数据或声明性信息与代码（程序集、类型、方法、属性等）相关联。将特性与程序实体相关联后，可以在运行时使用反射这项技术查询特性。
在 C# 中，通过用方括号 ([]) 将特性名称括起来，并置于应用该特性的实体的声明上方以指定特性。

作者：二次元攻城狮时间：2024-10-15

事件总线是对发布-订阅模式的一种实现，是一种集中式事件处理机制，允许不同的组件之间进行彼此通信而又不需要相互依赖，达到一种解耦的目的。
EventBus维护一个事件的字典，发布者、订阅者在事件总线中获取事件实例并执行发布、订阅操作，事件实例负责维护、执行事件处理程序。

作者：二次元攻城狮时间：2024-10-15

C#中使用jieba.NET、WordCloudSharp制作词云图

词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登（Rich Gordon）于2006年最先使用，是通过形成“关键词云层”或“关键词渲染”，对文本中出现频率较高的“关键词”的视觉上的突出。词云图过滤掉大量的文本信息，使浏览者只要一眼扫过文本就可以领略文本的主旨。
网上大部分文章介绍的是使用P

作者：二次元攻城狮时间：2024-10-15

小编推荐

苹果市值2025年有望达4万亿美元