微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

nlp – 爬网

我想抓住具体的东西.特别是像音乐会,电影,艺术画廊开幕等发生的事件等等.任何可能花时间去的事情.

如何实现抓取工具?

我听说过Grub(grub.org – > Wikia)和Heritix(http://crawler.archive.org/)

还有别人吗

每个人都有什么意见?

-Jason

解决方法

主题的优秀介绍文本是 Introduction to Information Retrieval(全文可在线).它有一个关于 Web crawling的章节,但也许更重要的是,它为您要抓取的文档所做的事情提供了基础.

Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg

原文地址:https://www.jb51.cc/nlp/230168.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐