微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用脚本在Solr中将段落解析为单独的文档

如何解决使用脚本在Solr中将段落解析为单独的文档

我想使用Nutch搜寻站点列表,然后将每个文档分解为多个段落,然后将它们发送给Solr进行索引。

我一直在使用以下脚本来自动化爬网/获取/解析/索引的过程:

bin/crawl -i -D solr.server.url=http://localhost:8983/solr/#/nutch -s ./urls/ Crawl 2

我的想法是在此工作流程的中间附加一个脚本(可能是Nutch的解析阶段?),该脚本会破坏段落,例如paragraphs.split()。我该怎么办?

此外,我需要在每个段落中添加一个字段,以显示其在文档中的数字位置以及该字段所属的章节。该章是文档中的h2标签

解决方法

当前,对您的问题没有一个很简单的答案。为此,您需要自定义代码,特别是Nutch有两个不同的插件来处理HTML代码parse-htmlparse-tika的解析。这些插件专注于提取文本内容,而不是从HTML文档中提取太多结构化数据。

您需要有一个自定义解析器(HtmlParserPugin)插件,该插件将以自定义方式(提取内容和位置信息)处理HTML文档中的段落节点。

您需要的另一个组件是在Solr中对数据建模,因为您需要将段落的位置保持在同一文档中,所以您还需要以在Solr中可搜索的方式发送此数据使用嵌套文档(此确实取决于您打算如何使用数据)。

例如,您可以看看this plugin,它实现了自定义逻辑,该逻辑使用来自HTML的任意X Path表达式提取数据。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。