微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何避免网络爬网时出现断断续续的单词

如何解决如何避免网络爬网时出现断断续续的单词

我正在尝试从以下网站通过网络抓取电影标题https://www.the-numbers.com/market/2019/top-grossing-movies

并不断变得像“约翰·威克:第3章–”。

这是图片

enter image description here

这是代码

url = "https://www.the-numbers.com/market/" + "2019" + "/top-grossing-movies"
raw = requests.get(url,headers={'User-Agent':'Mozilla/5.0'})  
html = BeautifulSoup(raw.text,"html.parser")
movie_list = html.select("#page_filling_chart table tr > td > b > a") #"#page_filling_chart > table > tbody > tr > td > b"
for i in range(len(movie_list)):
  print(movie_list[i].text)

这些是输出

Avengers: Endgame
The Lion King
Frozen II
Toy Story 4
Captain Marvel
Star Wars: The Rise of Skyw…
Spider-Man: Far From Home
Aladdin
Joker
Jumanji: The Next Level
It: Chapter Two
Us
Fast & FurIoUs Presents: Ho…
John Wick: Chapter 3 — Para…
How to Train Your Dragon: T…
The Secret Life of Pets 2
Pokémon: Detective pikachu
Once Upon a Time…in Hollywo…

我想知道为什么我会不断听到这些断句以及如何解决这个问题!

解决方法

由于此页面是服务器呈现的,因此您可以在标题损坏时单独请求该页面。(也不要忘记通过正则表达式获取标题,因为其页面的标题包含发布日期。)

请尝试以下代码:

import requests
from bs4 import BeautifulSoup

url = "https://www.the-numbers.com/market/" + "2019" + "/top-grossing-movies"
raw = requests.get(url,headers={'User-Agent': 'Mozilla/5.0'})
html = BeautifulSoup(raw.text,"html.parser")
movie_list = html.select("#page_filling_chart table tr > td > b > a")  # "#page_filling_chart > table > tbody > tr > td > b"
for movie in movie_list:
    raw = requests.get("https://www.the-numbers.com" + movie.get("href"),headers={'User-Agent': 'Mozilla/5.0'})
    raw.encoding = 'utf-8'
    html = BeautifulSoup(raw.text,"html.parser")
    print(html.select_one("#main > div > h1").text)

那给了我

Avengers: Endgame (2019)
The Lion King (2019)
Frozen II (2019)
Toy Story 4 (2019)
Captain Marvel (2019)
Star Wars: The Rise of Skywalker (2019)
Spider-Man: Far From Home (2019)
....
,

您需要像这样处理字符串,解决方案代码为:

LostFocus

输出如下:

PropertyChanged

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。