如何解决Apache Nutch 1.17,将已解析的内容和一些元数据转储到JSON中
我已经设置了Nutch 1.17来抓取一些数据。下载后,我必须将该数据导入JSON。它应该包含已解析的文本,标题,时间戳,URL。我该怎么办?
解决方法
您可以查看PR #490,其中已解决问题NUTCH-1863。这使您可以将CrawlDB转储为JSON格式(选中-format
标志)。
一个潜在的缺点是该工具可能不会输出您想要/需要的确切格式(不同的字段名称),但是它应该是一个很好的起点(并且它应该包含比您需要的更多的数据)。 / p>
最终,您可以实现一个自定义类,以所需格式转储段的内容。您可以使用SegmentDump.java类作为基本实现。
,或者,indexer-csv可以用作第一步(第二步是将CSV转换为JSON)。 Indexer-csv允许配置要导出的Nutch index fields-标题,URL(“ id”),时间戳(“ tstamp”)和已解析的文本(“ content”)作为标准字段或通过插件“ index-基本”。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。