微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

无法使用请求模块从网页解析电话号码

如何解决无法使用请求模块从网页解析电话号码

我试图找到任何使用请求模块从 webpage获取电话号码的方法。我使用 selenium 取得了成功,但我希望使用 requests 模块实现相同的目标。我尝试了很多使用 chrome 开发工具观察网络活动来找到任何线索,但我失败了。如果您想知道我是如何使用 selenium 做到的,我想粘贴 selenium 脚本。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import webdriverwait
from selenium.webdriver.support import expected_conditions as EC

url = 'https://www.numberbarn.com/search?state=New%20Jersey'

with webdriver.Chrome() as driver:
    driver.get(url)
    for item in webdriverwait(driver,10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,".results-list .container"))):
        phone = webdriverwait(item,10).until(EC.presence_of_element_located((By.CSS_SELECTOR,".telephone-number"))).text
        print(phone)

如何使用请求模块解析上述网页中的电话号码?

解决方法

Requests 是一个对 URI 进行原始 GET 的模块;在这种情况下,它将获取该网页的 HTML。

如果您在浏览器中打开该网页并使用开发人员工具查看它,您将看到这些电话号码实际上都没有在 HTML 中,因此请求(获取)+ XPATH(解析)或像 Scrapy 这样的工具可能会这样做不帮你。它基本上只是一个 Javascript blob:

  <meta name="twitter:domain" content="numberbarn.com">
  <base href="/">
  <link id="favicon" rel="icon" type="image/x-icon">
  <script async src="//www.googletagmanager.com/gtag/js"></script>
  <script>
    window.dataLayer = window.dataLayer || [];
    function gtag(){dataLayer.push(arguments);}
    gtag('js',new Date());
  </script>
<link rel="stylesheet" href="/angular/styles.d7cd4c8476c1236343ec.css"></head>
<body>
<app-root></app-root>
<link id="brand-stylesheet" rel="stylesheet"/>
<script src="//browser.sentry-cdn.com/5.17.0/bundle.min.js" integrity="sha384-lowBFC6YTkvMIWPORr7+TERnCkZdo5ab00oH5NkFLeQUAmBTLGwJpFjF6djuxJ/5" crossorigin="anonymous"></script>
<script src="/angular/runtime-es2015.cd8b7003cdbc6c84c9fd.js" type="module"></script><script src="/angular/runtime-es5.cd8b7003cdbc6c84c9fd.js" nomodule defer></script><script src="/angular/polyfills-es5.3c509d0a8908a60997e3.js" nomodule defer></script><script src="/angular/polyfills-es2015.ce03948e69242dd06dc0.js" type="module"></script><script src="/angular/vendor-es2015.a7e86119a8ea99d5add3.js" type="module"></script><script src="/angular/vendor-es5.a7e86119a8ea99d5add3.js" nomodule defer></script><script src="/angular/main-es2015.e16ee0657047312eb515.js" type="module"></script><script src="/angular/main-es5.e16ee0657047312eb515.js" nomodule defer></script></body>
</html>

您也可以通过以下方式查看:

curl "https://www.numberbarn.com/search?state=New%20Jersey" > blob.html

并在文本编辑器中打开 blob.html

您确实需要像 Selenium 这样的东西,它可以驱动网页,并且能够在“发布”javascript 渲染时解析它。

TLDR Requests + XPATH 只能在您尝试解析的页面包含您想要的 HTML 数据时使用。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?