如何解决如何使用 .iter_content 正确读取大块 html?
所以,我是一个非常业余的 Python 程序员,但希望我解释的一切都有意义。
我想抓取一种名为“10-K”的财务文档。我只对整个文档的一小部分感兴趣。我尝试抓取的 URL 示例是:https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt
现在,如果我将此文档下载为 .txt,它“仅”重 12mb。因此,对于我的无知来说,这需要 1-2 分钟才能.read()
(即使我有一台不错的 PC)。
我使用的原始代码:
from urllib.request import urlopen
url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'
response = urlopen(url)
document = response.read()
在此之后,我基本上将整个文档分成了 <DOCUMENT>data</DOCUMENT>
部分,并使用 for 循环来搜索是否在每个文档数据中都存在一些关键字,例如 <strong>CONSOLIDATED BALANCE SHEETS
,它告诉我有一个我想刮桌子。所有这些都以常规方式(如果需要可以共享代码),因为我已经尝试过 bs4 和其他解析器,并且是我的低级 PITA。表解析的正确文档是使用 df.read_html()
所以现在我的方法是这样的:
import requests
KeyWord = b'<strong>CONSOLIDATED BALANCE SHEETS'
interesting_chunk = b''
document = requests.get(url)
for chunk in document.iter_content(10000):
if KeyWord in chunk:
interesting_chunk = chunk
else:
continue
在此之后,我搜索 <DOCUMENT>
的开头和结尾
doc_start_pos = interesting_chunk.find(b'<DOCUMENT>')
doc_end_pos = interesting_chunk[doc_start_pos:].find(b'</DOCUMENT>')
final_document = interesting_chunk[doc_start_pos:doc_end_pos]
这里的问题:
- KeyWord 可以分成两个部分,所以我找不到它。
-
<DOCUMENT>
start 和 end 相同,甚至这些都不会出现在块内。
所以我想使用另一个字符串来保存循环中的前一个块,所以如果我找到 KeyWord,我仍然可以将前一个和当前块相加并找到 DOCUMENT 开始,最后,我可以继续迭代直到下一个</DOCUMENT>
但是对于拆分关键字的问题,我想知道如何处理它。它是随机的,它是一个大文件,而且不太可能,但如果我使用小块,那就不是那么困难了。我如何避免在两个块之间拆分关键字?
另外 IDK 块的最佳大小应该是多少...
解决方法
通过 Internet 阅读文档所需的时间实际上与计算机的速度无关,至少在大多数情况下是这样。最重要的决定因素是您的互联网连接速度。另一个重要的决定因素是远程服务器响应您的请求的速度,这部分取决于远程服务器当前尝试处理的其他请求的数量。
速度变慢也有可能不是由于上述任何一个原因,而是远程服务器为限制抓取或避免拥塞而采取的措施。服务器故意降低对频繁发出请求的客户端的响应,甚至完全拒绝请求是很常见的。或者降低向所有人传输数据的速度,这是控制服务器负载的另一种方式。在这种情况下,您将无法加快读取请求的速度。
在我的机器上,下载 12MB 的文档需要不到 30 秒的时间。由于我在秘鲁,因此互联网连接速度可能是一个因素,但我怀疑这不是唯一的问题。但是,数据传输确实很快开始。
如果问题与您的机器和服务器之间的数据传输速度有关,您可以使用流式解析器(您可以搜索的短语)加快速度。流解析器以小块的形式读取其输入,并将它们即时组合成令牌,这基本上就是您要尝试执行的操作。但是流解析器将透明地处理最困难的部分,即避免令牌在两个块之间拆分。但是,SEC 文档的性质(整体上不是很纯的 HTML)可能会导致难以使用标准工具。
由于您要分析的文档部分远远超过中间,至少在您提供的示例中,您将无法减少太多下载时间。但这可能仍然值得。
您描述的基本方法是可行的,但您需要对其进行一些更改,以应对在块之间拆分的搜索字符串,正如您所指出的。基本思想是追加连续的块直到找到字符串,而不是一次查看一个。
我建议先确定整个文档,然后再决定它是否是您想要的文档。这将搜索问题减少到单个字符串,即文档终止符(\n</DOCUMENT>\n
;添加换行符以减少错误匹配的可能性)。
这是一个非常粗略的实现,我建议您将其作为示例,而不是将其复制到您的程序中。函数 docs
从一个 url 产生连续的完整文档;呼叫者可以使用它来选择他们想要的。 (在示例代码中,使用第一个匹配的文档,虽然完整文件中实际上有两个匹配。如果你想要所有匹配,那么你将不得不读取整个输入,在这种情况下你不会有任何速度-up,尽管您可能仍然可以通过不必解析所有内容来节省一些费用。)
from urllib.request import urlopen
def docs(url):
with urlopen(url) as f:
buff = b''
fence = b'\n</DOCUMENT>\n'
while True:
chunk = f.read(65536)
if not chunk: break
start = max(0,len(buff) - len(fence))
buff += chunk
end = buff.find(fence,start)
if end != -1:
end += len(fence)
yield buff[find(buff,b'<DOCUMENT>'):end]
buff = buff[end:]
url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'
keyword = b'<strong>CONSOLIDATED BALANCE SHEETS'
for document in docs(url):
if keyword in document:
# Process document
break
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。