nutch - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

nutchnutch专题提供nutch的最新资讯内容，帮你更好的了解nutch。

使用脚本在Solr中将段落解析为单独的文档

我想使用Nutch搜寻站点列表，然后将每个文档分解为多个段落，然后将它们发送给Solr进行索引。我

作者：佚名时间：2022-06-13

我想使用nutch 1.17版本在solr indexer中添加包含html文件的新列

我想添加包含htmls文件（原始html文件）的新列。可能我知道需要进行哪些配置更改。我读取了包含内容

作者：佚名时间：2022-06-13

提取失败并显示协议状态：exception16，lastModified = 0：Http代码= 406，url = https：//www.randolphnj.org/

我正在尝试抓取网址：<a href="https://www.randolphnj.org/" rel="nofollow noreferrer">https://www.randolphnj.org/</a> 但

作者：佚名时间：2022-06-12

我在nutch爬行时记录了文件，但没有收到399054 SCHEDULE_REJECTED，5892 URLS_SKIPPED_PER_HOST_OVERFLOW

爬行时我看到它显示了 <pre><code>Generator: number of items rejected during selection: Generator: 67 HOSTS_AFFECTED_PER

作者：佚名时间：2022-06-12

将Nutch 1.17与EclipseUbuntu 18.04集成

我不知道该指南是否可能已过时，或者我做错了什么。我刚开始使用坚果，并且已经将其与solr集成在一

作者：佚名时间：2022-06-12

Nutch 1.17 Web爬网和存储优化

我正在使用Nutch 1.17来爬行超过百万个网站。为此，我必须执行以下操作。 <ol> <li>将爬网程序作为深

作者：佚名时间：2022-06-12

提取内容失败，协议状态为：异常16，lastModified = 0：Http代码= 403，url = https：//www.nicobuyscars.com

我正在对URL进行parsechecker：<a href="https://www.nicobuyscars.com" rel="nofollow noreferrer">https://www.nicobuyscars.com</a> o /

作者：佚名时间：2022-06-12

我使用rest api获取在nutchnutch 1.17中运行的作业列表

我已经使用bin / crawl命令将网址注入了小节和抓取。我正在使用螺母的rest api，我点击了此链接<a href="htt

作者：佚名时间：2022-06-11

我正在使用nutst rest api在nutch中生成segments，它正在工作nutch版本1.17

我写了可以生成类型但未创建段的nutst rest api。命令是 <pre><code>curl -H "Content-Type: application/json"

作者：佚名时间：2022-06-11

处于获取阶段的第二轮后，坚果作业失败了吗？

<strong>处于获取阶段的第二轮后，nutch作业失败</strong>。我使用的是emr集群，它没有抛出任何错误。我可

作者：佚名时间：2022-06-09

org.apache.tika.utils.XMLReaderUtils acquisitionSAXParser警告：争用正在等待SAXParser考虑增加XMLReaderUtils.POOL_SIZE

运行坚果作业时显示为 <blockquote> 2020年10月13日上午8:46:18 org.apache.tika.utils.XMLReaderUtils acquisitionSAXPar

作者：佚名时间：2022-06-09

坚果作业失败，退出值为255失败

当我为100万个URL运行nutch作业时，nutch作业失败与 <pre><code>20/10/14 12:40:34 ERROR fetcher.Fetcher: Fetcher: java.l

作者：佚名时间：2022-06-08

Nutch http.redirect.max我可能知道这是什么意思

我正在抓取1000个网站。当我为某些网站读取db时，如果我将http.redirect.max = 10设置为每个网站的值，则显

作者：佚名时间：2022-06-08

我正在从细分中读取内容文件夹统计报告存在差异

我给了输入URL进行抓取，以抓取1081220个URL。我进行了一轮抓取，然后从segments目录的content文件夹中读取

作者：佚名时间：2022-06-07

如何在下一个搜寻周期中找到要搜寻的新网址

例如，我将要抓取的轮数设置为3。我已经在种子文件中注入了10个网址。nutnut如何找到下一个要爬网的

作者：佚名时间：2022-06-06

我对db_redir_temp有一些疑问

我已经注入了一些要爬网的URL，这是一轮，我发现一些URL为db_redir_temp。 {“ url”：“ http://www.universityhea

作者：佚名时间：2022-06-06

在Nutch 2中禁用base64编码

我在Mongo中使用Nutch2。尽管我没有明确传递<code>-base64</code>选项，但Nutch推送的元数据正在获得base64编码

作者：佚名时间：2022-06-06

当试图读取1个URL的linkdb时看不到链接，但是我要查看100个URL

无法看到由nutch获取的链接1 URL，并且无法看到链接100 URL。 1url受坚果影响。绑定的1个网址是<a href="https:

作者：佚名时间：2022-06-05

nutnormal中的urlnormalizer-pass | regex | basic插件

我是否可以知道该插件插件正常化了。例如，我输入了10个URL来抓取10个URL。在db_fetched值中如何以网址

作者：佚名时间：2022-06-05

Apache Nutch 1.17 索引器兔子不工作

我正在尝试将抓取的文档推送给兔子。遵循了所有可用的文档。 <ol> <li><a href="https://cwiki.apache.org/confl

作者：佚名时间：2022-06-02

小编推荐

苹果市值2025年有望达4万亿美元