nutch - 编程之家

我使用 nutch 和 Elastisearch 抓取/解析 99 个网站/链接，以便在 Elasicsearch 中为它们编制索引，以便我可以使

我使用的是 nutch 1.15 和 solr 7.3，我按照文档中的搜索突出显示 - <a href="https://lucene.apache.org/solr/guide/7_3/hig

我正在运行 Red Hat Enterprise Linux 版本 8.3 (Ootpa)、Java openjdk 版本“1.8.0_275”、Solr 8.8.0 和 Nutch 1.18 我

我尝试了 - <a href="https://stackoverflow.com/questions/26422064/nutch-crawler-accept-only-english-pages">Nutch crawler: accept only

nutch fetch 因 java.lang.NumberFormatException 而失败

我在 Red Hat Enterprise Linux 8.3 版 (Ootpa) 上运行 Nutch 1.18，带有 Java openjdk 版本“1.8.0_275” 我正在遵循

Apache Solr 与 MySQL 的集成

我是使用 Apache Nutch 进行网络爬行的新手，如果这是一个基本问题，我深表歉意。我正在尝试使用 Apache N

当我使用 nutch crawling 抓取网站时，我遗漏了一些 URL

我正在使用 nutch 为我的项目抓取一些网站，但我丢失了大量数据。当我在抓取后将种子 URL 提供给 nutch

使用 Nutch 进行爬网，但它给许多文件的内容大小为 0

我正在使用 Apache Nutch 抓取网页。当我查看数据时，我有点惊讶。我正在寻找很多文件的内容大小为 0。

nutch-1.18 错误 java.lang.NoClassDefFoundError: org/apache/nutch/storage/WebPage$Field

我在所有版本的二进制 nutch、sources 或 git 上仍然有同样的错误源版本编译时出现此常量错误： <str

Nutch 地图减少工作卡在 67%

我使用 Nutch 1.17 在本地机器上的 Solr 中抓取网站和索引数据。一开始，我设置参数为topN=2，depth=2，爬取

抓取错误的网址

我对爬行很陌生。我抓取了一个网页并提取了超链接，然后将其提供给 Apache Nutch 1.18。所有网址都被拒

ElasticSearch 的 Nutch 索引

我正在努力将 Nutch 抓取的数据索引到 ElasticSearch 中。我使用 2 个 HDFS 节点在部署模式下运行 Nutch，并且

Nutch或开源.NET Crawler的自定义解析器

Nutch（或开源.NET Crawler）的自定义解析器 - | 我一直在使用Nutch / Solr / SolrNet作为我的搜索解决方案，我必须说，这很有效。在我正在工作的新站点上，我正在使用母版页，结果，页眉和页脚中的内容被索引并扭曲了结果。例如，我在标题中有一个指向“联系我们”页面的链接。现在，当我搜索\...

是否可以通过 Apache nutch 抓取 ip 范围？

我想抓取 IP 范围，例如具有起始 IP 和结束 IP 的城市。是否有可能在 IP、城市或国家范围之间抓取网站

Apache Nutch 不公开其 API

我正在尝试使用 Apache Nutch 1.x Rest API。我使用 docker 镜像来设置 Nutch 和 Solr。您可以在 <a href="https://github.

Nutch Crawler 索引图片和图片网址

我想在 HTML 页面上索引图像名称和 URL，每当我搜索文本时，都需要显示相应的文本结果和图像结果。

Nutch+Solr：如何索引嵌入在 HTML 中的 PDF？

我正在使用 Nutch+Solr 为内部搜索栏索引我的网站。该网站有许多带有嵌入 PDF 的 HTML 页面，我希望 PDF 中

添加更多 hadoop 节点不会提高 Nutch 爬网速度

我正在使用 Apache Nutch（1.18 版本）抓取网页。我认为添加更多的 hadoop 节点会使 Nutch 抓取网页的速

Apache Nutch 使用什么数据库来存储 URL？

我尝试查看其依赖项（请参阅 <a href="https://github.com/apache/nutch/blob/master/ivy/ivy.xml" rel="nofollow noreferrer">here<

我如何在Linux内核上运行nutch？

我想在 linux内核上运行nutch,我已经以root用户身份运行了, 我已经设置了所有环境变量和nutch文件设置. 我创建了一个url.txt文件,其中包含要抓取的网址, 当我试图使用以下命令运行nutch时, bin/nutch crawl urls -dir pra 它会产生以下异常. crawl started in: pra rootUrlDir = urls threads = 1