微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

CrawlZilla Web爬虫程序

程序名称:CrawlZilla

授权协议: Apache License 2

操作系统: Linux

开发语言: Java

CrawlZilla 介绍

CrawlZilla

  • crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題
  • 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。
  • crawlzilla 除了爬取基本的 html 檔外,還能分析網頁上的檔案,如( doc、pdf、ppt、ooo、RSS )等多種文件格式,讓你的搜尋引擎不只是網頁搜尋引擎,而是網站的完整資料索引庫
  • 擁有中文分詞能力,讓你的搜尋更精準
  • crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜尋平台,詳細可以看這裡
  • crawlzilla 使用 apache license 2.0 授權,有興趣的使用者可下載其原始碼來修改符合自己需求的自由或商業搜尋引擎

CrawlZilla 官网

http://code.google.com/p/crawlzilla/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐