如何解决Python 网页抓取:来自谷歌搜索结果的网站
这里是 Python 的新手。我想从谷歌搜索页面中提取多个网站(例如 100+)的信息。我只想提取关键信息,例如那些带有 <h1>
、<h2>
或 <b>
或 <li>
HTML 标签等。但我不想提取整个段落 <p>
。
我知道如何从谷歌搜索中收集网站 URL 列表;我知道如何在查看页面的 HTML 后抓取单个网站。我使用 Request 和 BeautifulSoup 来完成这些任务。
但是,我想知道如何从所有这些(100 多个!)网站中提取关键信息,而不必一一查看它们的 html。有没有办法自动找出网站用来强调关键信息的 HTML 标签?例如有些网站可能会使用 <h1>
,而有些网站可能会使用 <b>
或其他...
我能想到的就是列出可能的“强调类型”HTML 标签,然后使用 BeautifulSoup.find_all() 进行大规模提取。但肯定有更简单的方法吗?
解决方法
看来你必须先学习如何做循环和函数。每个网站都完全不同,单独抓取网站以提取有用的信息是一项艰巨的任务。我自己是新手,但如果我必须像你一样从标题中提取信息,这就是我会做的:(这只是概念代码,但希望你会发现它有用)
def getLinks(articleUrl):
html = urlopen('http://en.web.com{}'.format(articleUrl))
bs = BeautifulSoup(html,'html.parser')
return bs.find('h1',{'class':'header'}).find_all('h1',header=re.compile('^(/web/)((?!:).)*$'))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。