微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

我想使用nutch 1.17版本在solr indexer中添加包含html文件的新列

如何解决我想使用nutch 1.17版本在solr indexer中添加包含html文件的新列

我想添加包含htmls文件(原始html文件)的新列。可能我知道需要进行哪些配置更改。我读取了包含内容文件夹的句段阅读器,但输出的是文本文件,我想在其中索引htmls文件专栏。我可以知道如何实现。

解决方法

在Solr中建立索引时,您可能不得不在原始HTML中遇到特殊字符问题。无论如何,首先您应该在Nutch中自定义基于索引的插件。它的类名称是BasicIndexingFilter.java。使用以下内容更新此类:

item_list = [('item4',6,80),('item3',2,50),('item1',20),('item2',3,20)]

此后,还必须添加一个带有Solr Schem“ htmlContent”的字段。希望它能解决您的问题。

此任务可能还有其他选择。

我发现另一种评论方式效果最好。使用Nut CLI

String htmlcontent = parse.getData();
doc.add("htmlContent",StringUtil.cleanField(htmlcontent));

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。