翼度科技»论坛 编程开发 python 查看内容

【GUI软件】小红书评论采集:自动批量采集1w多条,含二级评论!

3

主题

3

帖子

9

积分

新手上路

Rank: 1

积分
9
目录

一、爬取目标

用python开发的xhs爬虫采集软件,可自动抓取小红书评论数据,并且含二级评论数据。
为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!
1.1 效果截图

软件界面截图:

结果截图1:

结果截图2:

结果截图3:

1.2 演示视频

软件运行演示:
1.3 软件说明

几点重要说明:

  • Windows用户可直接双击打开使用,无需Python运行环境,非常方便
  • 需要填入cookie和爬取目标笔记链接
  • 支持同时爬多个笔记的评论
  • 可爬取10个关键字段,含:笔记链接,页码,评论者昵称,评论者id,评论者主页链接,评论时间,评论IP属地,评论点赞数,评论级别,评论内容。
  • 评论中包含二级评论及二级展开评论。
二、代码讲解

2.1 爬虫采集模块

通过把已有代码部分封装成class类,供tkinter界面调用。
详细爬虫实现逻辑,请见:
【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!
2.2 软件界面模块

软件界面采用tkinter开发。
主窗口部分:
  1. # 创建日志目录
  2. work_path = os.getcwd()
  3. if not os.path.exists(work_path + "/logs"):
  4.         os.makedirs(work_path + "/logs")
  5. # 创建主窗口
  6. root = tk.Tk()
  7. root.title('小红书评论采集软件 | 马哥python说')
  8. # 设置窗口大小
  9. root.minsize(width=850, height=650)
复制代码
填写cookie控件:
  1. # 【填入Cookie】
  2. tk.Label(root, justify='left', font=('微软', 14), text='个人Cookie:').place(x=30, y=75)
  3. entry_ck = tk.Text(root, bg='#ffffff', width=110, height=2, )
  4. entry_ck.place(x=30, y=100, anchor='nw')  # 摆放位置
复制代码
填写笔记链接控件:
  1. # 【笔记链接】
  2. tk.Label(root, justify='left', font=('微软', 14), text='笔记链接:').place(x=30, y=145)
  3. note_ids = tk.StringVar()
  4. note_ids.set('')
  5. entry_nt = tk.Text(root, bg='#ffffff', width=110, height=14, )
  6. entry_nt.place(x=30, y=170, anchor='nw')  # 摆放位置
复制代码
底部软件版权说明:
  1. # 版权信息
  2. copyright = tk.Label(root, text='@马哥python说 All rights reserved.', font=('仿宋', 10), fg='grey')
  3. copyright.place(x=290, y=625)
复制代码
以上。
2.3 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。
核心代码:
  1. def get_logger(self):
  2.         self.logger = logging.getLogger(__name__)
  3.         # 日志格式
  4.         formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
  5.         # 日志级别
  6.         self.logger.setLevel(logging.DEBUG)
  7.         # 控制台日志
  8.         sh = logging.StreamHandler()
  9.         log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
  10.         # info日志文件名
  11.         info_file_name = time.strftime("%Y-%m-%d") + '.log'
  12.         case_dir = r'./logs/'
  13.         info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
  14.                                                                                         when='MIDNIGHT',
  15.                                                                                         interval=1,
  16.                                                                                         backupCount=7,
  17.                                                                                         encoding='utf-8')
复制代码
日志文件截图:

三、获取源码及软件

完整python源码及exe软件,微信公众号"老男孩的平凡之路"后台回复"爬小红书评论软件"即可获取。
直达:【GUI软件开发】小红书评论采集:自动采集1w多条,含二级评论!

来源:https://www.cnblogs.com/ws235/p/18132461/xhs_comment_tool
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具