如何解决是否可以在 Python 中抓取多个未确定的 URL?
我正在用 Python 创建一个应用程序,以便从给定用户输入的多个 URL 中进行网络抓取(提取数据)
目前,我的脚本可以:
- a) 允许用户在控制台上输入查询
- b) 调用搜索 API(
'googlesearch'
模块),该 API 处理给定的查询 由用户输入 - c) 在控制台终端窗口上显示搜索结果列表*保存在名为
results
的变量中
对于我检索的每个结果,我将如何在循环中从每个 URL(存储在 results
中)抓取 HTML 文本内容数据。
顺便说一句,我开发了另一个脚本,如果我指定并确定一个网址,我可以网络抓取一个 URL 页面。这成功地使用 'requests.get'
方法检索内容,并使用 'BeautifulSoup'
模块以可读格式提取数据。
到目前为止,这是我的 Python 脚本:
from googlesearch import search
def queryWebScrap():
input = str(input("Enter a query: "))
results = []
# retrieves first 20 search results
for i in search(input,tld="com",num=20,stop=20,pause=2) :
results.append(i)
print(results)
我希望允许用户输入查询,检索相关网址,然后从收集的网址中提取数据
任何帮助将不胜感激,谢谢! :)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。