实现购物机器人的网页抓取网页的最快方法

如何解决实现购物机器人的网页抓取网页的最快方法

我和我的朋友正在尝试开发一个购物机器人。它必须尽可能快，因为产品可能会在几秒钟内断货。我们一直在寻找不同的方法来做到这一点，我们想出了 Selenium 和 Scrapy 以及其他 python 库，我们已经有了一些工作，但手头的任务似乎很慢。

我们考虑过不要抓取网页（选择产品、添加到购物车等），而是尝试制作一个机器人，该机器人只向商店的服务器发送带有产品和其余信息的 HTML 发布请求必要的。我们在其他帖子中读到这是通过请求库完成的，但是我们如何知道某个操作需要哪些信息和发布请求数量（例如单击添加到购物车按钮向服务器发送一些帖子请求，所以我们如何知道该请求中的信息以在我们的程序中模拟它？）

我们希望库能够使用 JavaScript 抓取网页，例如在单击按钮或从下拉菜单中选择项目时。我们遇到了一些无法做到的库（例如 Scrapy）

此外，如果您知道一种具有更好库的不同编程语言或者它执行得更快，我们将不胜感激，我们都知道 Python 和 Java，但我们愿意接受建议

解决方法

最快的方法是通过 requests，使用 bs4 或 regex 来抓取网页，这是大多数“购物机器人”使用的，为了使其更快，您可以在 go 或 typescript 中编写机器人比python快得多