翼度科技»论坛 编程开发 python 查看内容

【python爬虫案例】用python爬豆瓣读书TOP250排行榜!

5

主题

5

帖子

15

积分

新手上路

Rank: 1

积分
15
目录

一、爬虫对象-豆瓣读书TOP250

今天我们分享一期python爬虫案例讲解。爬取对象是,豆瓣读书TOP250排行榜数据:
https://book.douban.com/top250

开发好python爬虫代码后,爬取成功后的csv数据,如下:

代码是怎样实现的爬取呢?下面逐一讲解python实现。
二、python爬虫代码讲解

首先,导入需要用到的库:
  1. import requests  # 发送请求
  2. from bs4 import BeautifulSoup  # 解析网页
  3. import pandas as pd  # 存取csv
  4. from time import sleep  # 等待时间
复制代码
然后,向豆瓣读书网页发送请求:
  1. res = requests.get(url, headers=headers)
复制代码
利用BeautifulSoup库解析响应页面:
  1. soup = BeautifulSoup(res.text, 'html.parser')
复制代码
用BeautifulSoup的select函数,(css解析的方法)编写代码逻辑,部分核心代码:
  1. name = book.select('.pl2 a')[0]['title']  # 书名
  2. book_name.append(name)
  3. bkurl = book.select('.pl2 a')[0]['href']  # 书籍链接
  4. book_url.append(bkurl)
  5. star = book.select('.rating_nums')[0].text  # 书籍评分
  6. book_star.append(star)
  7. star_people = book.select('.pl')[1].text  # 评分人数
  8. star_people = star_people.strip().replace(' ', '').replace('人评价', '').replace('(\n', '').replace('\n)',
  9.                                                                                                  '')  # 数据清洗
  10. book_star_people.append(star_people)
复制代码
最后,将爬取到的数据保存到csv文件中:
  1. def save_to_csv(csv_name):
  2.         """
  3.         数据保存到csv
  4.         :return: None
  5.         """
  6.         df = pd.DataFrame()  # 初始化一个DataFrame对象
  7.         df['书名'] = book_name
  8.         df['豆瓣链接'] = book_url
  9.         df['作者'] = book_author
  10.         df['译者'] = book_translater
  11.         df['出版社'] = book_publisher
  12.         df['出版日期'] = book_pub_year
  13.         df['价格'] = book_price
  14.         df['评分'] = book_star
  15.         df['评分人数'] = book_star_people
  16.         df['一句话评价'] = book_comment
  17.         df.to_csv(csv_name, encoding='utf8')  # 将数据保存到csv文件
复制代码
其中,把各个list赋值为DataFrame的各个列,就把list数据转换为了DataFrame数据,然后直接to_csv保存。
这样,爬取的数据就持久化保存下来了。
三、讲解视频

同步讲解视频:https://www.zhihu.com/zvideo/1464515550177546240
四、完整源码

附完整源代码:【python爬虫案例】利用python爬虫爬取豆瓣读书TOP250的数据!
我是 @马哥python说 ,持续分享python源码干货中!

来源:https://www.cnblogs.com/mashukui/p/17514196.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具