翼度科技»论坛 编程开发 python 查看内容

【可视化大屏】用Python开发「淄博烧烤」微博热评舆情分析大屏

5

主题

5

帖子

15

积分

新手上路

Rank: 1

积分
15
目录

一、开发背景

您好,我是@马哥python说 ,一枚10年程序猿。
自从2023.3月以来,"淄博烧烤"现象持续占领热搜流量,体现了后疫情时代众多网友对人间烟火气的美好向往,本现象级事件存在一定的数据分析实践意义。
静态截图:

动态演示:
【大屏演示】Python可视化舆情大屏「淄博烧烤」
二、爬虫代码

2.1 爬微博列表

通过m端的搜索页面,爬取以"淄博烧烤"为关键词的微博id,获取到微博id的目的,是传给评论爬虫。
发送请求部分:
  1. # 请求地址
  2. url = 'https://m.weibo.cn/api/container/getIndex'
  3. # 请求参数
  4. params = {
  5.     "containerid": "100103type=60&q={}".format(v_keyword),
  6.     "page_type": "searchall",
  7.     "page": page
  8. }
  9. # 发送请求
  10. r = requests.get(url, headers=headers, params=params)
复制代码
注意,type=60代表"热门",如下:

解析数据部分:
  1. # 解析json数据
  2. cards = r.json()["data"]["cards"]
  3. print('微博数量:', len(cards))
  4. for card in cards:
  5.     # 微博id
  6.     id_list = card['mblog']['id']
  7.     id_list_list.append(id_list)
复制代码
至此,已经获取到以「淄博烧烤」为关键词的微博id列表 id_list_list 了。
2.2 爬微博评论

从2.1章节获取到微博id列表之后,传入爬取微博评论函数 get_comments
这部分爬虫讲解可移步:
【2023微博评论爬虫】用python爬上千条微博评论,突破15页限制!
最终,爬取到的微博评论数据,示例如下:

说明:无论微博搜索页,还是微博评论页,都可以自定义设置max_page,满足自己的个性化数据量要求。
2.3 导入MySQL数据库

最核心的三行代码:
  1. # 读取csv数据
  2. df = pd.read_csv('去重后_' + comment_file)
  3. # 把csv数据导入MySQL数据库
  4. df.to_sql(name='t_zbsk', con=engine, chunksize=1000, if_exists='replace', index=False)
  5. print('导入数据库完成!')
复制代码
用create_engine创建数据库连接,格式为:
create_engine('数据库类型+数据库驱动://用户名:密码@数据库IP地址/数据库名称')
这样,数据库连接就创建好了。
然后,用pandas的read_csv函数读取csv文件。
最后,用pandas的to_sql函数,把数据存入MySQL数据库:

  • name='college_t2' #mysql数据库中的表名
  • con=engine # 数据库连接
  • index=False #不包含索引字段
  • if_exists='replace' #如果表中存在数据,就替换掉
非常方便地完成了反向导入,即:从csv向数据库的导入。
这个部分的讲解视频:
仅用Python三行代码,实现数据库和excel之间的导入导出!
三、可视化代码

3.1 大标题

由于pyecharts组件没有专门用作标题的图表,我决定灵活运用Line组件实现大标题。
首先,找到一张星空图作为大屏背景图:

然后,在Line组件中加入js代码,加载背景图:
  1. # 设置背景图片
  2. line3.add_js_funcs(
  3.     """
  4.     var img = new Image(); img.src = './static/bg2.png';
  5.     """
  6. )
复制代码
大标题效果如下:

3.2 词云图(含:加载停用词)

绘制词云图,需要先进行中文分词。既然分词,就要先设置停用词,避免干扰词影响分析结果。
这里采用哈工大停用词作为停用词词典。
  1. # 停用词列表
  2. with open('hit_stopwords.txt', 'r') as f:
  3.     stopwords_list = f.readlines()
  4. stopwords_list = [i.strip() for i in stopwords_list]
复制代码
这样,所有停用词就存入stopwords_list这个列表里了。
如果哈工大停用词仍然无法满足需求,再加入一些自定义停用词,extend到这个列表里:
  1. # 加入自定义停用词
  2. stopwords_list.extend(
  3.     ['3', '5', '不', '都', '好', '人', '吃', '都', '去', '想', '说', '还', '很', '…', 'nan', '真的', '不是',
  4.      '没', '会', '看', '现在', '觉得', ' ', '没有', '上', '感觉', '大', '太', '真', '哈哈哈', '火', '挖', '做',
  5.      '一下', '不能', '知道', '这种', '快'])
复制代码
现在就可以愉快的绘制词云图了,部分核心代码:
  1. wc = WordCloud(init_opts=opts.InitOpts(width='600px', height=chart_height, theme=theme_config, chart_id='wc1'))
  2. wc.add(series_name="评论内容",
  3.        data_pair=data300,
  4.        word_gap=1,
  5.        word_size_range=[20, 70],
  6.        )  # 增加数据
  7. wc.set_global_opts(
  8.     title_opts=opts.TitleOpts(pos_left='center',
  9.                               pos_top='0%',
  10.                               title=v_title,
  11.                               title_textstyle_opts=opts.TextStyleOpts(font_size=20, color=title_color)  # 设置标题
  12.                               ),
  13.     tooltip_opts=opts.TooltipOpts(is_show=True),  # 显示提示
  14. )
复制代码
词云图效果:

3.3 玫瑰图(含:snownlp情感分析)

先对评论数据进行情感判定,采用snownlp技术进行情感打分及判定结果:
[code]for comment in cmt_list:    sentiments_score = SnowNLP(comment).sentiments    if 0

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具