微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Nutch或开源.NET Crawler的自定义解析器

如何解决Nutch或开源.NET Crawler的自定义解析器

| 我一直在使用Nutch / Solr / SolrNet作为我的搜索解决方案,我必须说,这很有效。在我正在工作的新站点上,我正在使用母版页,结果,页眉和页脚中的内容被索引并扭曲了结果。例如,我在标题中有一个指向“联系我们”页面链接。现在,当我搜索\'Contact \'时,结果将返回站点中的所有页面。 是否有可定制的Nutch解析器,我也许可以传递div ID,然后仅对div中的内容编制索引。 或者是否有我可以自定义的基于.NET的搜寻器。     

解决方法

参见https://issues.apache.org/jira/browse/NUTCH-585 和https://issues.apache.org/jira/browse/NUTCH-961 顺便说一句,通过发布到Nutch用户列表,您将获得更多相关的受众     ,您可以实现Nutch过滤器(我喜欢Jericho HTML Parser),以仅提取需要使用DOM操作建立索引的页面部分。您可以使用TextExtractor类来获取要在索引中使用的纯文本(没有HTML标记)。我通常将这些数据保存在自定义字段中。     

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。