翼度科技»论坛 编程开发 python 查看内容

Python爬虫采集商品评价信息--京东

6

主题

6

帖子

18

积分

新手上路

Rank: 1

积分
18
1.数据采集逻辑

在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。
 

 
 
2.数据Schema


 
3.数据爬取

抓取京东平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。
评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。
目标URL地址:
  1. https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10056364088483&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1
复制代码
 
通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(京东商品评价页只显示前100页,所以page最大值为99)

  • 导入库
  1. import random
  2. import requests
  3. import json
  4. import re
  5. import csv
  6. import time
  7. import pymysql
复制代码
   2.对爬虫程序进行伪装
  1. header = {
  2.         'refer': 'https: // item.jd.com /',
  3.         'cookie': '',
  4.         'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
  5.     }
复制代码
   3.抓取商品评论信息
将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。
  1. parm = {
  2.         'callback': 'fetchJSON_comment98',
  3.         'productId': '10056364088483',
  4.         'score': '0',
  5.         'sortType': '5',
  6.         'page': page,
  7.         'pageSize': '10',
  8.         'isShadowSku': '0',
  9.         'fold': '1'
  10.     }
  11. url = 'https://club.jd.com/comment/productPageComments.action'
  12. res = requests.get(url, params=parm, headers=header)
复制代码
  4.防止反爬,每爬取一页数据后,设置程序休眠环节
  1. # 程序休眠
  2. time.sleep(random.randint(40, 80) * 0.1)
  3. print('第%d页正在爬取' % (page + 1))
  4.   爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。
  5.   使用正则对数据进行提取,返回字符串。
  6.   字符串转换为json格式数据。
  7. res.encoding = 'gb18030'
  8. html = res.text
  9. data = re.findall('fetchJSON_comment98\((.*?)\);', html)
  10. data = json.loads(data[0])  # 将处理的数据进行解析
  11. comments = data['comments']
  12. print(data['comments'])
复制代码
4.数据存储


  • 存储到csv
  1. # 写入csv文件
  2. f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
  3. header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
  4. # 创建一个DictWriter对象,第二个参数就是上面创建的表头
  5. writer = csv.DictWriter(f, header)
  6. writer.writeheader()
  7.     for i in comments:
  8.         id = i['id']
  9.         content = i['content']
  10.         creationTime = i['creationTime']
  11.         score = i['score']
  12.         productColor = i['productColor']
  13.         productSize = i['productSize']
  14.         writer.writerow(
  15.             {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,
  16.              "productSize": productSize})
  17. f.close()
复制代码
   2.存储到数据库
  1. # 写入数据库
  2. conn = pymysql.connect(host='', user='', password='', port=, db='')
  3. cursor = conn.cursor()
  4.     for i in comments:
  5.         id = i['id']
  6.         content = i['content']
  7.         creationTime = i['creationTime']
  8.         score = i['score']
  9.         productColor = i['productColor']
  10.         productSize = i['productSize']
  11.         sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"
  12.         cursor.execute(sql)
  13.         conn.commit()
  14. cursor.close()
  15. conn.close()
复制代码
 

来源:https://www.cnblogs.com/i-zhongyi-you/p/17229393.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具