翼度科技»论坛 编程开发 python 查看内容

【Python爬虫项目实战】Python爬虫豆瓣Top250电影短评数据保存本地

5

主题

5

帖子

15

积分

新手上路

Rank: 1

积分
15
前言

今天给大家介绍的是Python爬虫豆瓣Top250电影短评数据保存本地,在这里给需要的小伙伴们帮助,并且给出一点小心得。

开发工具

Python版本:3.6
相关模块:
requests模块
parsel模块
time模块
环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。
文中完整代码及文件,评论留言获取
数据来源查询分析

浏览器中打开我们要爬取的页面
按F12进入开发者工具,查看我们想要的电影短评在哪里
这里我们需要页面数据就可以了

代码实现
  1. headers = {
  2.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
  3. }
  4. for page in range(1, 20):
  5.     url = f'https://movie.douban.com/subject/35613853/comments?start={page*20}&limit=20&status=P&sort=new_score'
  6.     data_html = requests.get(url=url, headers=headers).text
  7.     selector = parsel.Selector(data_html)
  8.     comment_list = selector.css('.comment-item')
  9.     for comment in comment_list:
  10.         short = comment.css('.short::text').get().strip()
  11.         name = comment.css('.comment-info a::text').get().strip()
  12.         time = comment.css('.comment-time::text').get().strip()
  13.         vote_count = comment.css('.votes.vote-count::text').get().strip()
  14.         print(short, name, time, vote_count)
复制代码
最后

今天的分享到这里就结束了 ,感兴趣的朋友也可以去试试哈
对文章有问题的,或者有其他关于python的问题,可以在评论区留言或者私信我哦
觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/

来源:https://www.cnblogs.com/guzichuan/p/17048603.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具