如何解决抓取网站,需要了解xhr请求中的offset参数
我需要从 SOFIFA 中抓取用户评论。我不是紫罗兰色的服务条款。出于研究目的这样做,将对评论进行情感分析。
以前我使用 selenium 来做这件事,但现在我想了解如何处理 xhr 请求。
我有以下代码处理部分数据。
require(httr)
headers = c(
`authority` = 'sofifa.com',`sec-ch-ua` = '"Chromium";v="88","Google Chrome";v="88",";Not A Brand";v="99"',`sec-ch-ua-mobile` = '?0',`user-agent` = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/88.0.4324.150 Safari/537.36',`content-type` = 'application/x-www-form-urlencoded',`accept` = '*/*',`origin` = 'https://sofifa.com',`sec-fetch-site` = 'same-origin',`sec-fetch-mode` = 'cors',`sec-fetch-dest` = 'empty',`referer` = 'https://sofifa.com/player/186627/mario-balotelli/',`accept-language` = 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',`cookie` = '__cfduid=db15a2a682ae0df33bb294045e9b662c01612890100; setting=1; hl=en-US; _ga=GA1.2.1741914491.1612890104; _gid=GA1.2.1485093854.1612890104; usprivacy=1---; playerCol=ae%2Coa%2Cpt%2Cvl%2Cwg%2Ctt; __aaxsc=1; aasd=1%7C1613045816508; commentOrder=time'
)
data = '{"domain":"sofifa.com","path":"player/186627","rootId":0,"postId":0,"offset":"8003294939","order":"time"}'
res <- httr::POST(url = 'https://sofifa.com/api/comment/list',httr::add_headers(.headers=headers),body = data)
status_code(res)
x = jsonlite::fromJSON(content(res,"text"))
y = x$comments
似乎我需要使用“偏移”参数“播放”。您能帮我了解它是什么以及如何更改它以收集自 2017 年以来的所有评论吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。