如何使用 .iter_content 正确读取大块 html？

如何解决如何使用 .iter_content 正确读取大块 html？

所以，我是一个非常业余的 Python 程序员，但希望我解释的一切都有意义。

我想抓取一种名为“10-K”的财务文档。我只对整个文档的一小部分感兴趣。我尝试抓取的 URL 示例是：https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt

现在，如果我将此文档下载为 .txt，它“仅”重 12mb。因此，对于我的无知来说，这需要 1-2 分钟才能.read()（即使我有一台不错的 PC）。

我使用的原始代码：

from urllib.request import urlopen
url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'

response = urlopen(url)
document = response.read()

在此之后，我基本上将整个文档分成了 <DOCUMENT>data</DOCUMENT> 部分，并使用 for 循环来搜索是否在每个文档数据中都存在一些关键字，例如 <strong>CONSOLIDATED BALANCE SHEETS，它告诉我有一个我想刮桌子。所有这些都以常规方式（如果需要可以共享代码），因为我已经尝试过 bs4 和其他解析器，并且是我的低级 PITA。表解析的正确文档是使用 df.read_html()

完成的

所以现在我的方法是这样的：

import requests
KeyWord = b'<strong>CONSOLIDATED BALANCE SHEETS'
interesting_chunk = b''

document = requests.get(url)

for chunk in document.iter_content(10000):
     if KeyWord in chunk:
          interesting_chunk = chunk
     else:
          continue

在此之后，我搜索 <DOCUMENT> 的开头和结尾

doc_start_pos = interesting_chunk.find(b'<DOCUMENT>')
doc_end_pos  = interesting_chunk[doc_start_pos:].find(b'</DOCUMENT>')

final_document = interesting_chunk[doc_start_pos:doc_end_pos]

这里的问题：

KeyWord 可以分成两个部分，所以我找不到它。
<DOCUMENT> start 和 end 相同，甚至这些都不会出现在块内。

所以我想使用另一个字符串来保存循环中的前一个块，所以如果我找到 KeyWord，我仍然可以将前一个和当前块相加并找到 DOCUMENT 开始，最后，我可以继续迭代直到下一个</DOCUMENT>

但是对于拆分关键字的问题，我想知道如何处理它。它是随机的，它是一个大文件，而且不太可能，但如果我使用小块，那就不是那么困难了。我如何避免在两个块之间拆分关键字？

另外 IDK 块的最佳大小应该是多少...

解决方法

通过 Internet 阅读文档所需的时间实际上与计算机的速度无关，至少在大多数情况下是这样。最重要的决定因素是您的互联网连接速度。另一个重要的决定因素是远程服务器响应您的请求的速度，这部分取决于远程服务器当前尝试处理的其他请求的数量。

速度变慢也有可能不是由于上述任何一个原因，而是远程服务器为限制抓取或避免拥塞而采取的措施。服务器故意降低对频繁发出请求的客户端的响应，甚至完全拒绝请求是很常见的。或者降低向所有人传输数据的速度，这是控制服务器负载的另一种方式。在这种情况下，您将无法加快读取请求的速度。

在我的机器上，下载 12MB 的文档需要不到 30 秒的时间。由于我在秘鲁，因此互联网连接速度可能是一个因素，但我怀疑这不是唯一的问题。但是，数据传输确实很快开始。

如果问题与您的机器和服务器之间的数据传输速度有关，您可以使用流式解析器（您可以搜索的短语）加快速度。流解析器以小块的形式读取其输入，并将它们即时组合成令牌，这基本上就是您要尝试执行的操作。但是流解析器将透明地处理最困难的部分，即避免令牌在两个块之间拆分。但是，SEC 文档的性质（整体上不是很纯的 HTML）可能会导致难以使用标准工具。

由于您要分析的文档部分远远超过中间，至少在您提供的示例中，您将无法减少太多下载时间。但这可能仍然值得。

您描述的基本方法是可行的，但您需要对其进行一些更改，以应对在块之间拆分的搜索字符串，正如您所指出的。基本思想是追加连续的块直到找到字符串，而不是一次查看一个。

我建议先确定整个文档，然后再决定它是否是您想要的文档。这将搜索问题减少到单个字符串，即文档终止符（\n</DOCUMENT>\n；添加换行符以减少错误匹配的可能性）。

这是一个非常粗略的实现，我建议您将其作为示例，而不是将其复制到您的程序中。函数 docs 从一个 url 产生连续的完整文档；呼叫者可以使用它来选择他们想要的。（在示例代码中，使用第一个匹配的文档，虽然完整文件中实际上有两个匹配。如果你想要所有匹配，那么你将不得不读取整个输入，在这种情况下你不会有任何速度-up，尽管您可能仍然可以通过不必解析所有内容来节省一些费用。）

from urllib.request import urlopen
def docs(url):
    with urlopen(url) as f:
        buff = b''
        fence = b'\n</DOCUMENT>\n'
        while True:
            chunk = f.read(65536)
            if not chunk: break
                start = max(0,len(buff) - len(fence))
                buff += chunk
                end = buff.find(fence,start)
                if end != -1: 
                    end += len(fence)
                    yield buff[find(buff,b'<DOCUMENT>'):end]
        buff = buff[end:]

url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'
keyword = b'<strong>CONSOLIDATED BALANCE SHEETS'

for document in docs(url):
    if keyword in document:
        # Process document
        break

如何使用 .iter_content 正确读取大块 html？

如何解决如何使用 .iter_content 正确读取大块 html？

解决方法

相关推荐