翼度科技»论坛 编程开发 python 查看内容

【数学建模导论】Task01 数据处理与拟合模型

6

主题

6

帖子

18

积分

新手上路

Rank: 1

积分
18
0  前言

感谢 DataWhale 的开源学习课程 intro-mathmodel,项目仓库在这
现在开始,跟着Task01 进入数据类的学习,实现每一个代码,包括数据预处理、回归分析与分类分析、假设检验、随机过程与随机模拟、数据可视化图表、三种插值模型。
本篇是知识的梳理和总结,用以更好地食用教材,亦或作为后期复盘的资料。
学习重点在于各种常见的统计分析模型的区别总结。
1  数据与大数据

Drew Conway在2010年阐释“数据科学”的时候称:
“数据科学是统计学计算机科学领域知识的交叉学科”
2  数据的预处理

2.1  为什么需要数据预处理


在采集完数据后,
我们得到的原始数据往往非常混乱、不全面,模型往往无法从中有效识别并提取信息,
于是建模的首要步骤以及主要步骤便是数据预处理。
现在,我们先学习一个概念——稀疏。
对数据有一定的理解后再正式进行数据预处理操作。
2.2  使用 pandas 处理数据


数据预处理重复数据:直接将其删除即可
缺失数据:主要是观察缺失率

  • 缺失的数据项占比 较少(大概5%以内):这个时候如果问题允许可以把行删掉
  • 缺失率稍微高一点(5%-20%)左右:就可以使用填充、插值的方法去处理
  • 缺失率还高一些(20%-40%):就需要用预测方法例如机器学习去填充缺失数据了
  • 如果一列数据有50%以上都是缺失的:可以把这一列都删掉(需要条件允许的情况下)
基础demopandas dataframe的基础语法
  1. # (1)Python创建一个数据框DataFrame:
  2. import pandas as pd
  3. import numpy as np
  4. data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
  5.         'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
  6.         'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
  7.         'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
  8. labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
  9. df = pd.DataFrame(data)
  10. df
  11. #(2)显示该 DataFrame 及其数据相关的基本信息:
  12. df.describe()
  13. (3)返回DataFrame df 的前5列数据:
  14. df.head(5)
  15. #(4)从 DataFrame df 选择标签列为 animal 和 age 的列
  16. df[['animal', 'age']]
  17. #(5)在 [3, 4, 8] 行中,列为 ['animal', 'age'] 的数据
  18. df.loc[[3, 4, 8], ['animal', 'age']]
  19. #(6)选择列为visits中等于3的行 (: 在这里表示选取所有列。)
  20. df.loc[df['visits']==3, :]
  21. #(7)选择 age 为缺失值的行
  22. df.loc[df['age'].isna(), :]
  23. #(8)选择 animal 是cat且age 小于 3 的行
  24. df.loc[(df['animal'] == 'cat') & (df['age'] < 3), :]
  25. #(9)选择 age 在 2 到 4 之间的数据(包含边界值)
  26. df.loc[(df['age']>=2)&(df['age']<=4), :]      # 不能写联不等式,得拆开写
  27. #(10)将 'f' 行的 age 改为 1.5
  28. df.index = labels             # 若要对DataFrame行索引操作,需要自行创建行索引。(DataFrame默认是没有激活行索引功能)
  29. df.loc[['f'], ['age']] = 1.5
  30. print(df)
  31. #(11)对 visits 列的数据求和
  32. df['visits'].sum()
  33. #(12)计算每种 animal age 的平均值
  34. df.groupby(['animal'])['age'].mean()
复制代码
案例2
现在,我们来仿真“每天的商店营业额”这个复合泊松过程吧。
首先,我们假设
每个小时进入商店的平均人数为:[10, 5, 3, 6, 8, 10, 20, 40, 100, 80, 40, 50, 100, 120, 30, 30, 60, 80, 100, 150, 70, 20, 20, 10],
每位顾客的平均花费为:10元(大约一份早餐吧),
请问每天商店的营业额是多少?
  1. #(1)创建pandas dataframe
  2. df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
  3.                                'Budapest_PaRis', 'Brussels_londOn'],
  4.               'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
  5.               'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
  6.                    'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
  7.                                '12. Air France', '"Swiss Air"']})
  8. df
  9. #(2)FlightNumber列中有某些缺失值,缺失值常用nan表示,请在该列中添加10055与10075填充该缺失值。
  10. df['FlightNumber'] = df['FlightNumber'].interpolate().astype(int)
  11. df
  12. #(3)由于列From_To 代表从地点A到地点B,因此可以将这列拆分成两列,并赋予为列From与To。
  13. temp = df['From_To'].str.split("_", expand=True)      # expand=True 参数被设置时,意味着可以将这列拆分成两列
  14. temp.columns = ['From', 'To']
  15. #(4)将列From和To转化成只有首字母大写的形式。
  16. temp['From'] = temp['From'].str.capitalize()
  17. temp['To'] = temp['To'].str.capitalize()
  18. #(5)将列From_To从df中去除,并把列From和To添加到df中
  19. df.drop('From_To', axis=1, inplace=True)
  20. df[['From', 'To']] = temp
  21. df
  22. #(6)清除列中的特殊字符,只留下航空公司的名字。
  23. # str.extract 是一个用于从字符串中抽取匹配正则表达式的部分的方法。
  24. # 这里的正则表达式 r'([a-zA-Z\s]+)' 匹配一个或多个字母 (a-z, A-Z) 或空白字符(\s)。+表示字母和空格的模式可以重复一次或多次。
  25. # expand=False 参数被设置时,意味着返回的将是 Series,
  26. # expand=True 参数为默认值,意味着返回的将是 DataFrame。
  27. df['Airline'] = df['Airline'].str.extract(r'([a-zA-Z\s]+)', expand=False).str.strip()
  28. df
  29. #(7)在 RecentDelays 列中,值已作为列表输入到 DataFrame 中。
  30. # 我们希望每个第一个值在它自己的列中,
  31. # 每个第二个值在它自己的列中,
  32. # 依此类推。如果没有第 N 个值,则该值应为 NaN。
  33. # 将 Series 列表展开成名为 delays 的 DataFrame,
  34. # 重命名列delay_1,delay_2等等,
  35. # 并将不需要的 RecentDelays 列替换df为delays。
  36. delays = df['RecentDelays'].apply(pd.Series)
  37. delays.columns = ['delay_%s' % i for i in range(1, len(delays.columns)+1)]
  38. df = df.drop('RecentDelays', axis=1).join(delays, how='left')                   # 左连接:确保其结果会包含左侧DataFrame(即df)的所有行
  39. df
  40. #(8)将delay_i列的控制nan都填为自身的平均值。
  41. for i in range(1, 4):
  42.     df[f'delay_{i}'] = df[f'delay_{i}'].fillna(np.mean(df[f'delay_{i}']))      # f 是为了创建 格式化字符串字面量
  43. df
  44. #(9)在df中增加一行,值与FlightNumber=10085的行保持一致。
  45. df = df._append(df.loc[df['FlightNumber'] == 10085, :], ignore_index=True)
  46. df
  47. #(10)对df进行去重,由于df添加了一行的值与FlightNumber=10085的行一样的行,因此去重时需要去掉。
  48. df = df.drop_duplicates()
  49. df
复制代码
案例3
艾滋病发展过程分为四个阶段(状态),
急性感染期(状态 1)、无症状期(状态 2), 艾滋病前期(状态 3), 典型艾滋病期(状态 4)。
艾滋病发展过程基本上是一个不可逆的过程,即:状态1 -> 状态2 -> 状态3 -> 状态4。现在收集某地600例艾滋病防控数据,得到以下表格

现在,我们希望计算若一个人此时是无症状期(状态2)在10次转移之后,这个人的各状态的概率是多少?
  1. # 模拟仿真研究该道路口一天平均有多少车经过
  2. import numpy as np
  3. import simpy
  4. class Road_Crossing:
  5.     def __init__(self, env):
  6.         self.road_crossing_container = simpy.Container(env, capacity = 1e8, init = 0)
  7.    
  8. def come_across(env, road_crossing, lmd):
  9.     while True:
  10.         body_time = np.random.exponential(1.0/(lmd/60))  # 经过指数分布的时间后,泊松过程记录数+1
  11.         yield env.timeout(body_time)  # 经过body_time个时间
  12.         yield road_crossing.road_crossing_container.put(1)
  13. hours = 24  # 一天24h
  14. minutes = 60  # 一个小时60min
  15. days = 3   # 模拟3天
  16. lmd_ls = [30, 20, 10, 6, 8, 20, 40, 100, 250, 200, 100, 65, 100, 120, 100, 120, 200, 220, 240, 180, 150, 100, 50, 40]   # 每隔小时平均通过车辆数
  17. car_sum = []  # 存储每一天的通过路口的车辆数之和
  18. print('仿真开始:')
  19. for day in range(days):
  20.     day_car_sum = 0   # 记录每天的通过车辆数之和
  21.     for hour, lmd in enumerate(lmd_ls):
  22.         env = simpy.Environment()
  23.         road_crossing = Road_Crossing(env)
  24.         come_across_process = env.process(come_across(env, road_crossing, lmd))
  25.         env.run(until = 60)  # 每次仿真60min
  26.         if hour % 4 == 0:
  27.             print("第"+str(day+1)+"天,第"+str(hour+1)+"时的车辆数:", road_crossing.road_crossing_container.level)
  28.         day_car_sum += road_crossing.road_crossing_container.level
  29.     car_sum.append(day_car_sum)
  30. print("每天通过交通路口的的车辆数之和为:", car_sum)
复制代码
4  数据可视化

4.1  Python 三大数据可视化工具库的简介


Matplotlib 的绘图逻辑是:一句话一个特征。
Seaborn 把数据拟合等统计属性高度集成在绘图函数中,绘图功能还是构筑在Matplotlib之上。
Plotnine 的绘图逻辑是:一句话一个图层。
4.2  基本图表 Quick Start


5  插值模型

5.1  线性插值法

$$
{L_1}(x) = {y_k} + \frac{{{y_{k + 1}} - {y_k}}}{{{x_{k + 1}} - {x_k}}}(x - {x_k})   \tag{5.1}
$$
5.2 三次样条插值

$$
{a_i}x_i^3 + {b_i}x_i^2 + {c_i}{x_i} + {d_i} = {a_{i + 1}}x_{i + 1}^3 + {b_{i + 1}}x_{i + 1}^2 + {c_{i + 1}}{x_{i + 1}} + {d_{i + 1}}   \tag{5.2}
$$$$
3{a_i}x_i^2 + 2{b_i}{x_i} + {c_i} = 3{a_{i + 1}}x_{i + 1}^2 + 2{b_{i + 1}}{x_{i + 1}} + {c_{i + 1}} \tag{5.3}
$$$$
6{a_i}{x_i} + 2{b_i} = 6{a_{i + 1}}{x_{i + 1}} + 2{b_{i + 1}}   \tag{5.4}
$$
5.3 拉格朗日插值

对于一组数据{y}和下标{x},定义n个拉格朗日插值基函数:
$$
{l_k}(x) = \prod\limits_{i = 0,i \ne k}^n {\frac{{x - {x_i}}}{{{x_k} - {x_i}}}}     \tag{5.5}
$$
这本质上是一个分式,当 x=xk 时 lk(x)=1,这一操作实现了离散数据的连续化。
按照对应下标的函数值加权求和可以得到整体的拉格朗日插值函数:
$$
L(x) = \sum\limits_{k = 0}^n {{y_k}{l_k}(x)}    \tag{5.6}
$$
Read more


来源:https://www.cnblogs.com/Sullivan-Hua/p/18321791
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具