我想使用nutch 1.17版本在solr indexer中添加包含html文件的新列

我想添加包含htmls文件（原始html文件）的新列。可能我知道需要进行哪些配置更改。我读取了包含内容文件夹的句段阅读器，但输出的是文本文件，我想在其中索引htmls文件专栏。我可以知道如何实现。

在Solr中建立索引时，您可能不得不在原始HTML中遇到特殊字符问题。无论如何，首先您应该在Nutch中自定义基于索引的插件。它的类名称是BasicIndexingFilter.java。使用以下内容更新此类：

item_list = [('item4',6,80),('item3',2,50),('item1',20),('item2',3,20)]

此后，还必须添加一个带有Solr Schem“ htmlContent”的字段。希望它能解决您的问题。

此任务可能还有其他选择。

我发现另一种评论方式效果最好。使用Nut CLI

String htmlcontent = parse.getData();
doc.add("htmlContent",StringUtil.cleanField(htmlcontent));