【python爬虫案例】用python爬豆瓣读书TOP250排行榜！

踏云揽月 · 发表于 2023-6-29 15:19:17

一、爬虫对象-豆瓣读书TOP250

今天我们分享一期python爬虫案例讲解。爬取对象是，豆瓣读书TOP250排行榜数据：
https://book.douban.com/top250

开发好python爬虫代码后，爬取成功后的csv数据，如下：

代码是怎样实现的爬取呢？下面逐一讲解python实现。
二、python爬虫代码讲解

首先，导入需要用到的库：

复制代码

然后，向豆瓣读书网页发送请求：

复制代码

利用BeautifulSoup库解析响应页面：

复制代码

用BeautifulSoup的select函数，（css解析的方法）编写代码逻辑，部分核心代码：

name = book.select('.pl2 a')[0]['title'] # 书名
book_name.append(name)
bkurl = book.select('.pl2 a')[0]['href'] # 书籍链接
book_url.append(bkurl)
star = book.select('.rating_nums')[0].text # 书籍评分
book_star.append(star)
star_people = book.select('.pl')[1].text # 评分人数
star_people = star_people.strip().replace(' ', '').replace('人评价', '').replace('(\n', '').replace('\n)',
'') # 数据清洗
book_star_people.append(star_people)

复制代码

最后，将爬取到的数据保存到csv文件中：

复制代码

其中，把各个list赋值为DataFrame的各个列，就把list数据转换为了DataFrame数据，然后直接to_csv保存。
这样，爬取的数据就持久化保存下来了。
三、讲解视频

同步讲解视频：https://www.zhihu.com/zvideo/1464515550177546240
四、完整源码

附完整源代码：【python爬虫案例】利用python爬虫爬取豆瓣读书TOP250的数据！
我是 @马哥python说，持续分享python源码干货中！

来源:https://www.cnblogs.com/mashukui/p/17514196.html
免责声明：由于采集信息均来自互联网，如果侵犯了您的权益，请联系我们【E-Mail:cb@itdo.tech】我们会及时删除侵权内容，谢谢合作！