如何使用 .iter_content 正确读取大块 html?

如何解决如何使用 .iter_content 正确读取大块 html?

所以,我是一个非常业余的 Python 程序员,但希望我解释的一切都有意义。

我想抓取一种名为“10-K”的财务文档。我只对整个文档的一小部分感兴趣。我尝试抓取的 URL 示例是:https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt

现在,如果我将此文档下载为 .txt,它“仅”重 12mb。因此,对于我的无知来说,这需要 1-2 分钟才能.read()(即使我有一台不错的 PC)。

我使用的原始代码:

from urllib.request import urlopen
url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'

response = urlopen(url)
document = response.read()

在此之后,我基本上将整个文档分成了 <DOCUMENT>data</DOCUMENT> 部分,并使用 for 循环来搜索是否在每个文档数据中都存在一些关键字,例如 <strong>CONSOLIDATED BALANCE SHEETS,它告诉我有一个我想刮桌子。所有这些都以常规方式(如果需要可以共享代码),因为我已经尝试过 bs4 和其他解析器,并且是我的低级 PITA。表解析的正确文档是使用 df.read_html()

完成的

所以现在我的方法是这样的:

import requests
KeyWord = b'<strong>CONSOLIDATED BALANCE SHEETS'
interesting_chunk = b''

document = requests.get(url)

for chunk in document.iter_content(10000):
     if KeyWord in chunk:
          interesting_chunk = chunk
     else:
          continue

在此之后,我搜索 <DOCUMENT> 的开头和结尾

doc_start_pos = interesting_chunk.find(b'<DOCUMENT>')
doc_end_pos  = interesting_chunk[doc_start_pos:].find(b'</DOCUMENT>')

final_document = interesting_chunk[doc_start_pos:doc_end_pos]

这里的问题:

  • KeyWord 可以分成两个部分,所以我找不到它。
  • <DOCUMENT> start 和 end 相同,甚至这些都不会出现在块内。

所以我想使用另一个字符串来保存循环中的前一个块,所以如果我找到 KeyWord,我仍然可以将前一个和当前块相加并找到 DOCUMENT 开始,最后,我可以继续迭代直到下一个</DOCUMENT>

但是对于拆分关键字的问题,我想知道如何处理它。它是随机的,它是一个大文件,而且不太可能,但如果我使用小块,那就不是那么困难了。我如何避免在两个块之间拆分关键字?

另外 IDK 块的最佳大小应该是多少...

解决方法

通过 Internet 阅读文档所需的时间实际上与计算机的速度无关,至少在大多数情况下是这样。最重要的决定因素是您的互联网连接速度。另一个重要的决定因素是远程服务器响应您的请求的速度,这部分取决于远程服务器当前尝试处理的其他请求的数量。

速度变慢也有可能不是由于上述任何一个原因,而是远程服务器为限制抓取或避免拥塞而采取的措施。服务器故意降低对频繁发出请求的客户端的响应,甚至完全拒绝请求是很常见的。或者降低向所有人传输数据的速度,这是控制服务器负载的另一种方式。在这种情况下,您将无法加快读取请求的速度。

在我的机器上,下载 12MB 的文档需要不到 30 秒的时间。由于我在秘鲁,因此互联网连接速度可能是一个因素,但我怀疑这不是唯一的问题。但是,数据传输确实很快开始。

如果问题与您的机器和服务器之间的数据传输速度有关,您可以使用流式解析器(您可以搜索的短语)加快速度。流解析器以小块的形式读取其输入,并将它们即时组合成令牌,这基本上就是您要尝试执行的操作。但是流解析器将透明地处理最困难的部分,即避免令牌在两个块之间拆分。但是,SEC 文档的性质(整体上不是很纯的 HTML)可能会导致难以使用标准工具。

由于您要分析的文档部分远远超过中间,至少在您提供的示例中,您将无法减少太多下载时间。但这可能仍然值得。

您描述的基本方法是可行的,但您需要对其进行一些更改,以应对在块之间拆分的搜索字符串,正如您所指出的。基本思想是追加连续的块直到找到字符串,而不是一次查看一个。

我建议先确定整个文档,然后再决定它是否是您想要的文档。这将搜索问题减少到单个字符串,即文档终止符(\n</DOCUMENT>\n;添加换行符以减少错误匹配的可能性)。

这是一个非常粗略的实现,我建议您将其作为示例,而不是将其复制到您的程序中。函数 docs 从一个 url 产生连续的完整文档;呼叫者可以使用它来选择他们想要的。 (在示例代码中,使用第一个匹配的文档,虽然完整文件中实际上有两个匹配。如果你想要所有匹配,那么你将不得不读取整个输入,在这种情况下你不会有任何速度-up,尽管您可能仍然可以通过不必解析所有内容来节省一些费用。)

from urllib.request import urlopen
def docs(url):
    with urlopen(url) as f:
        buff = b''
        fence = b'\n</DOCUMENT>\n'
        while True:
            chunk = f.read(65536)
            if not chunk: break
                start = max(0,len(buff) - len(fence))
                buff += chunk
                end = buff.find(fence,start)
                if end != -1: 
                    end += len(fence)
                    yield buff[find(buff,b'<DOCUMENT>'):end]
        buff = buff[end:]

url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'
keyword = b'<strong>CONSOLIDATED BALANCE SHEETS'

for document in docs(url):
    if keyword in document:
        # Process document
        break

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res