翼度科技»论坛 编程开发 python 查看内容

Python爬取往期股票数据,分析中奖规律!

8

主题

8

帖子

24

积分

新手上路

Rank: 1

积分
24
快过年了,手头有点紧,但是作为一个男人,身上怎么能够没有大把钞票呢?
于是我决定用Python来分析一波股票,赢了会所嫩*,输了下海干活!

好了,上面是我吹牛逼的,不过确实有小伙伴看了爬股票数据进行分析的教程中过,但是我还是不建议各位去碰这玩意,今天咱们就是纯纯的分享技术哈~

准备工作

既然要去赚马内,咱们首先要获取往期的数据来进行分析,通过往期的规律来对当前进行预测,准不准我不知道,反正比人预测的准,不准也不要喷我,咱们是来交流技术的,不是来炒股的。
我们需要使用这些模块,通过pip安装即可。
不会安装模块可以看我往期文章:如何安装python模块, python模块安装失败的原因以及解决办法
后续使用的其它的模块都是Python自带的,不需要安装,直接导入使用即可。
  1. requests:      爬虫数据请求模块
  2. pyecharts:     数据分析 可视化模块
  3. pandas:        数据分析 可视化模块里面的设置模块(图表样式)
复制代码
 
获取数据部分

爬虫的基本流程

思路分析
采集什么数据?怎么采集?
首先我们找到数据来源,从network当中去找到数据所在的位置,这一步就不详细讲了。
可以看我往期文章:Python爬虫何如抓包?这三个案例手把手教会你,非常详细!
代码实现
我们想要实现通过爬虫获取到数据,正常情况下有几个步骤:

  • 发送请求
  • 获取数据
  • 解析数据
  • 保存数据
接下来我们来看代码
代码展示

导入需要使用的模块
  1. import requests     # 数据请求模块
  2. import csv          # 表格模块
复制代码
 
1、发送请求
通过response模块来访问需要获取数据的地址
  1. url = 'https://stock.xueqiu.com/v5/stock/screener/quote/list.json?page={page}&size=30&order=desc&orderby=percent&order_by=percent&market=CN&type=sh_sz'
  2. requests.get(url=url)
复制代码
 
假设目标网址是你刚认识的妹子家,你能穿的破破烂烂,脏不溜秋的就进去吗?肯定得打扮一番,把自己伪装的人模狗样的才让你进去对不对,不然就被赶出来了。
同理,直接这么进去是不一定能获取到数据,所以需要使用 cookie 来伪装一下,cookie代表着用户身份信息。
当然光cookie是不够的,咱们再加上当前网页的 user-agent
伪装加好之后,咱们就能得到一个相应结果,先打印出来看看。
  1. import requests  # 第三方模块
  2. import csv
  3. # 我录制了详细讲解的视频,以及源代码都在这个君羊708525271自取就好了
  4. # 伪装
  5. headers = {
  6.     # 用户身份信息
  7.     'cookie': 's=bq119wflib; device_id=90ec0683f24e4d1dd28a383d87fa03c5; xq_a_token=df4b782b118f7f9cabab6989b39a24cb04685f95; xqat=df4b782b118f7f9cabab6989b39a24cb04685f95; xq_r_token=3ae1ada2a33de0f698daa53fb4e1b61edf335952; xq_id_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiJ9.eyJ1aWQiOi0xLCJpc3MiOiJ1YyIsImV4cCI6MTY3MjE4Njc1MSwiY3RtIjoxNjcwNTAxMjA5MTEyLCJjaWQiOiJkOWQwbjRBWnVwIn0.iuLASkwB6LkAYhG8X8HE-M7AM0n0QUULimW1C4bmkko-wwnPv8YgdakTC1Ju6TPQLjGhMqHuSXqiWdOqVIjy_OMEj9L_HScDot-7kn63uc2lZbEdGnjyF3sDrqGBCpocuxTTwuSFuQoQ1lL7ZWLYOcvz2pRgCw64I0zLZ9LogQU8rNP-a_1Nc91V8moONFqPWD5Lt3JxqcuyJbmb86OpfJZRycnh1Gjnl0Aj1ltGa4sNGSMXoY2iNM8NB56LLIp9dztEwExiRSWlWZifpl9ERTIIpHFBq6L2lSTRKqXKb0V3McmgwQ1X0_MdNdLAZaLZjSIIcQgBU26T8Z4YBZ39dA; u=511670501221348; Hm_lvt_1db88642e346389874251b5a1eded6e3=1667994737,1670480781,1670501222; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1670501922',
  8.     # 浏览器的基本信息
  9.     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
  10. }
  11. url = 'https://stock.xueqiu.com/v5/stock/screener/quote/list.json?page={page}&size=30&order=desc&orderby=percent&order_by=percent&market=CN&type=sh_sz'
  12.     # 1. 发送请求
  13. response = requests.get(url=url, headers=headers)
  14. print(response)
复制代码
 

运行后出现 求请求成功,出现404就是访问不到资源,一般是被反爬了。
所以这时候我们需要加一个 referer 防盗链参数进去
  1. 'referer: https://xueqiu.com/hq'
复制代码
 
如果加了还不行,就是自己链接有问题了。
取数据的话 .json 就好了
  1. import requests  # 第三方模块
  2. import csv
  3. # 伪装
  4. headers = {
  5.     # 用户身份信息
  6.     'cookie': 's=bq119wflib; device_id=90ec0683f24e4d1dd28a383d87fa03c5; xq_a_token=df4b782b118f7f9cabab6989b39a24cb04685f95; xqat=df4b782b118f7f9cabab6989b39a24cb04685f95; xq_r_token=3ae1ada2a33de0f698daa53fb4e1b61edf335952; xq_id_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiJ9.eyJ1aWQiOi0xLCJpc3MiOiJ1YyIsImV4cCI6MTY3MjE4Njc1MSwiY3RtIjoxNjcwNTAxMjA5MTEyLCJjaWQiOiJkOWQwbjRBWnVwIn0.iuLASkwB6LkAYhG8X8HE-M7AM0n0QUULimW1C4bmkko-wwnPv8YgdakTC1Ju6TPQLjGhMqHuSXqiWdOqVIjy_OMEj9L_HScDot-7kn63uc2lZbEdGnjyF3sDrqGBCpocuxTTwuSFuQoQ1lL7ZWLYOcvz2pRgCw64I0zLZ9LogQU8rNP-a_1Nc91V8moONFqPWD5Lt3JxqcuyJbmb86OpfJZRycnh1Gjnl0Aj1ltGa4sNGSMXoY2iNM8NB56LLIp9dztEwExiRSWlWZifpl9ERTIIpHFBq6L2lSTRKqXKb0V3McmgwQ1X0_MdNdLAZaLZjSIIcQgBU26T8Z4YBZ39dA; u=511670501221348; Hm_lvt_1db88642e346389874251b5a1eded6e3=1667994737,1670480781,1670501222; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1670501922',
  7.     # 防盗链
  8.     'referer: https://xueqiu.com/hq'
  9.     # 浏览器的基本信息
  10.     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
  11. }
  12. url = 'https://stock.xueqiu.com/v5/stock/screener/quote/list.json?page={page}&size=30&order=desc&orderby=percent&order_by=percent&market=CN&type=sh_sz'
  13.     # 1. 发送请求
  14. response = requests.get(url=url, headers=headers)
  15. print(response.json())
复制代码
 

2、获取数据
什么是json数据?
以 {}/[] 所包裹起来的数据 {“”:“”, “”:“”}
除了 .json 还可以通过 .text 和 .content 来拿到数据,但是它们获取到的数据是一样。
.text 获取到的是字符串,文本内容。
.content 取到的是二进制数据,一般是图片/音频/视频内容。
  1. json_data = response.json()
复制代码
 
3、解析数据
解析数据就是提取数据,把我们想要的数据提取出来。
没学过字典的小伙伴,可以先学一下字典。
  1. data_list = json_data['data']['list']
  2. # data_list[0]
  3. # data_list[1]
  4. for i in range(0, len(data_list)):
  5.     symbol = data_list[i]['symbol']
  6.     name = data_list[i]['name']
  7.     current = data_list[i]['current']
  8.     chg = data_list[i]['chg']
  9.     percent = data_list[i]['percent']
  10.     current_year_percent = data_list[i]['current_year_percent']
  11.     volume = data_list[i]['volume']
  12.     amount = data_list[i]['amount']
  13.     turnover_rate = data_list[i]['turnover_rate']
  14.     pe_ttm = data_list[i]['pe_ttm']
  15.     dividend_yield = data_list[i]['dividend_yield']
  16.     market_capital = data_list[i]['market_capital']
  17.     print(symbol, name, current, chg, percent, current_year_percent, volume, amount, turnover_rate, pe_ttm, dividend_yield, market_capital)
复制代码
 
4、保存数据
  1. csv_writer.writerow([symbol, name, current, chg, percent, current_year_percent, volume, amount, turnover_rate, pe_ttm, dividend_yield, market_capital])
复制代码
 
  1. <br>爬虫部分就结束了,接下来看数据分析部分,文章不理解,我还录了视频讲解,视频以及完整代码在文末名片自取即可。
复制代码
数据可视化分析

导入需要使用的模块
  1. import pandas as pd         # 做表格数据处理模块
  2. from pyecharts.charts import Bar    # 可视化模块
  3. from pyecharts import options as opts   # 可视化模块里面的设置模块(图表样式)
复制代码
 
读取数据
  1. df = pd.read_csv('股票.csv')
  2. x = list(df['股票名称'].values)
  3. y = list(df['成交量'].values)
  4. c = (
  5.     Bar()
  6.     .add_xaxis(x[:10])
  7.     .add_yaxis("成交额", y[:10])
  8.     .set_global_opts(
  9.         xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
  10.         title_opts=opts.TitleOpts(title="Bar-旋转X轴标签", subtitle="解决标签名字过长的问题"),
  11.     )
  12.     .render("成交量图表.html")
复制代码
 
最后

今天的分享到这里就结束了,如果如果觉得有帮助的话,记得点赞收藏哈~

来源:https://www.cnblogs.com/hahaa/p/17025032.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具