如何解决将scrapy爬虫与Django集成
在将其标记为重复之前,请先阅读。我已经研究了很多,但没有发现任何东西(虽然是同一个标题的不同问题)。
在我的项目中,我想从用户那里获取一个 URL 并使用 Scrapy 蜘蛛/爬虫抓取该 URL。我首先尝试通过将抓取代码直接放在我的 views.py
中来做到这一点,但是 twisted.internet.reactor
的启动/停止导致了问题。另一种方法是使用调度程序,例如 Scrapyd。但关键是特定视图中的下一个操作必须在爬虫完成抓取后才发生。 Scrapyd 只会调度爬虫。
如果我对 Scrapyd 的假设有误,或者我可以使用一些 API 来跟踪抓取进度,请纠正我。如果没有,请建议我可以做些什么来实现这一目标。 TIA。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。