如何解决抓取Google Ngram数据
我需要刮掉所有英语5克(2012版)并将其存储在我大学的HPC服务器上。我尝试使用google_ngram_downloader的多个变体,但对我而言不起作用。它随机下载一个数据文件,而不是我要查找的所有5gram。相反,我使用的是这段代码:
import requests
import urllib.request
import time
from bs4 import BeautifulSoup
url = 'http://storage.googleapis.com/books/ngrams/books/datasetsv2.html'
response = requests.get(url)
soup = BeautifulSoup(response.text,'html.parser')
soup.findAll('a')
one_a_tag = soup.findAll('a')[2217]
link = one_a_tag['href']
line_count = 1 #variable to track what line you are on
for one_a_tag in soup.findAll('a'): #'a' tags are for links
if line_count >= 2217 and line_count <= 2939: #text files starts at line X and ends at line Y
download_url = link
urllib.request.urlretrieve(download_url,"https:\portal.aci.ics.psu.edu\pun\sys\files\fs\storage\home\user\NLP\Data\" + link[link.find('googlebooks-eng-all-5gram-20120701-'):])
time.sleep(1)
line_count +=1
我或者得到一个错误消息“找不到”,表明我的目录存在问题;但是,当我使用本地目录时,仍然出现相同的错误或“在扫描字符串文字时停止运行”。我在想代码的URL部分有问题,但是我无法弄清楚它是什么。我已经坚持了好几天,可以解决我遇到的其他一些问题,但是我仍然无法成功运行它。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。