几乎实时地从网站中抓取动态内容

如何解决几乎实时地从网站中抓取动态内容

我正在尝试实施网络抓取工具,以近乎实时的方式从网站上抓取动态更新的内容

让我们以https://www.timeanddate.com/worldclock/为例,假设我想连续获取当前时间在自己的家中。 现在我的解决方案如下:每秒获取渲染的页面内容,并使用bs4提取时间。工作代码

import asyncio
import bs4
import pyppeteer

def get_current_time(content):
    soup = bs4.BeautifulSoup(content,features="lxml")
    clock = soup.find(class_="my-city__digitalClock")
    hour_minutes = clock.contents[3].next_element
    seconds = clock.contents[5].next_element
    return hour_minutes + ":" + seconds

async def main():
    browser = await pyppeteer.launch()
    page = await browser.newPage()
    await page.goto("https://www.timeanddate.com/worldclock/")
    for _ in range(30):
        content = await page.content()
        print(get_current_time(content))
        await asyncio.sleep(1)
    await browser.close()

asyncio.run(main())

我想做的是:仅在页面上的时间更新时做出反应。原因:更快的反应和更少的计算强度(尤其是在监视多个页面时,这些页面可能以小于或大于一秒的不规则间隔进行更新)。

我已经/尝试了以下三个解决方案,但是我不知道该怎么做。还有一种更简单/更优雅的方法

1)使用pyppeteer拦截网络响应

这似乎不起作用,因为在最初加载页面后(广告除外)没有更多的网络活动,正如我在Chrome Dev Tools的“网络”标签中所见。

2)对页面上的自定义事件做出反应

使用Chrome开发工具的“来源”标签中的“事件监听器断点”,可以停止在各种事件(例如“设置innerHTML”事件)上执行JavaScript代码

是否可以使用pyppeteer做类似的事情,提供有关事件的一些上下文信息(例如,用哪个新文本更新哪个元素)?

似乎可以使用JavaScript和puppeteer(请参阅https://github.com/puppeteer/puppeteer/blob/main/examples/custom-event.js),但是我认为pyppeteer不提供此功能(我在API参考中找不到它)。

3)覆盖页面JavaScript代码中的功能

覆盖相关功能拦截相关数据(作为参数提供给该功能)。

这个想法是受以下博客文章启发的:https://antoinevastel.com/javascript/2019/06/10/monitor-js-execution.html

博客文章的完整代码https://github.com/antoinevastel/blog-post-monitor-js/blob/master/monitorExecution.js

我尝试了一下,但是我的JavaScript似乎太局限了,甚至无法覆盖页面使用的其中一种javascript中的函数

解决方法

您可以使用Selenium来实现。我正在通过Chrome webdriver使用webdriver-manager,但是您可以修改它以使用您喜欢的任何东西。

首先,我们所有的进口商品

ConcatIterator<TSHeaderItem>

使用from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverManager 参数创建我们的driver对象,以使浏览器窗口不会打开。

headless

定义一个接受options = Options() options.add_argument("--headless") driver = webdriver.Chrome(ChromeDriverManager().install(),options=options) 来提取时钟时间的函数。

WebElement

获取页面并提取时钟def getTimeString(myClock: WebElement) -> str: hourMinute = myClock.find_element(By.XPATH,"span[position()=2]").text seconds = myClock.find_element(By.CLASS_NAME,"my-city__seconds").text return f"{hourMinute}:{seconds}"

WebElement

最后,实现我们的循环

driver.get("https://www.timeanddate.com/worldclock/")
myClock = driver.find_element(By.CLASS_NAME,"my-city__digitalClock")

在逻辑结束之前,请确保运行last = None while True: now = getTimeString(myClock) if now == last: continue print(now) last = now 进行清理。

输出

driver.quit()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?