微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

实现购物机器人的网页抓取网页的最快方法

如何解决实现购物机器人的网页抓取网页的最快方法

我和我的朋友正在尝试开发一个购物机器人。它必须尽可能快,因为产品可能会在几秒钟内断货。我们一直在寻找不同的方法来做到这一点,我们想出了 Selenium 和 Scrapy 以及其他 python 库,我们已经有了一些工作,但手头的任务似乎很慢。

我们考虑过不要抓取网页(选择产品、添加到购物车等),而是尝试制作一个机器人,该机器人只向商店的服务器发送带有产品和其余信息的 HTML 发布请求必要的。我们在其他帖子中读到这是通过请求库完成的,但是我们如何知道某个操作需要哪些信息和发布请求数量(例如单击添加到购物车按钮向服务器发送一些帖子请求,所以我们如何知道该请求中的信息以在我们的程序中模拟它?)

我们希望库能够使用 JavaScript 抓取网页,例如在单击按钮或从下拉菜单中选择项目时。我们遇到了一些无法做到的库(例如 Scrapy)

此外,如果您知道一种具有更好库的不同编程语言或者它执行得更快,我们将不胜感激,我们都知道 Python 和 Java,但我们愿意接受建议

解决方法

最快的方法是通过 requests,使用 bs4 或 regex 来抓取网页,这是大多数“购物机器人”使用的,为了使其更快,您可以在 go 或 typescript 中编写机器人比python快得多

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。