微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

新版必应BingAiChat写个爬取京东商城前5页商品的爬虫,超级方便

我重申一下,很多同学还不知道怎么申请新版必应,这里我将以前的教程分享出来,自己对照教程,就可以注册,不用再给我私信了!

申请必应教程:点击申请融合chatgpt的微软新版必应bing更加智能,国内随便用

手机使用新版必应教程,点击查看

手机使用新版必应NewBingAi保姆级教程,设置简单比chatgpt好用

新版必应BingAiChat实在太强大了,确实比chatgpt响应速度快,还更加稳定,毕竟用的4.0版本,主要免费,特别好用。

今天没事干,用新版必应BingAiChat写个爬虫,爬取京东商城前5页的低价商品,限制条件是5-10元价格的商品,存储在表格中,并且导出价格、名称链接,不到10秒钟就写好了,是个Python爬虫,实在太方便了。

还有不会申请新版必应的,看我另一篇文章,直接点下面蓝色文字

融合chatgpt的微软新版必应bing更加智能,国内随便用

我贴出来生成的源码,想用的可以直接拿去环境执行:

# 导入所需模块

import requests

import json

import xlwt

from selenium import webdriver

# 创建excel文件和工作表

workbook = xlwt.Workbook(encoding='utf-8')

worksheet = workbook.add_sheet('京东商品')

# 设置excel表头

worksheet.write(0, 0, '名称')

worksheet.write(0, 1, '价格')

worksheet.write(0, 2, '链接')

# 定义爬取函数

def crawl_jd(page):

# 创建浏览器对象

browser = webdriver.Chrome()

# 打开京东首页

browser.get('https://www.jd.com/')

# 找到搜索框并输入关键词

input_Box = browser.find_element_by_id('key')

input_Box.clear()

input_Box.send_keys('5-10元')

# 点击搜索按钮

button = browser.find_element_by_class_name('button')

button.click()

# 跳转到指定页数

browser.get(browser.current_url + '&page=' + str(page))

# 获取商品列表元素

goods_list = browser.find_element_by_id('J_goodsList')

# 获取商品信息元素列表

goods_info_list = goods_list.find_elements_by_class_name('gl-item')

# 遍历每个商品信息元素,并提取名称、价格、链接等数据

for i in range(len(goods_info_list)):

# 获取商品名称元素,并提取文本内容(去掉空格)

name_element = goods_info_list[i].find_element_by_css_selector('.p-name a em')

name = name_element.text.replace('n', '').replace(' ', '')

# 获取商品价格元素,并提取文本内容(转换为浮点数)

price_element = goods_info_list[i].find_element_by_css_selector('.p-price i')

price = float(price_element.text)

# 获取商品链接元素,并提取href属性值(去掉空格)

link_element = goods_info_list[i].find_element_by_css_selector('.p-name a')

link = link_element.get_attribute('href').replace(' ', '')

# 将数据写入excel文件中,注意行号要加上之前爬取过的数量(每页30个)

worksheet.write((page - 1) * 30 + i + 1, 0, name)

worksheet.write((page - 1) * 30 + i + 1, 1, price)

worksheet.write((page - 1) * 30 + i + 1, 2, link)

# 调用爬取函数,爬取前5页数据(可根据需要修改页数)

for page in range(1,6):

crawl_jd(page)

# 关闭浏览器对象

browser.close()

# 保存excel文件到当前目录下,命名为jd_goods.xlsx(可根据需要修改文件名)

workbook.save('jd_goods.xlsx')

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐