【数学建模导论】Task01 数据处理与拟合模型

聪润 · 发表于 2024-7-25 07:17:46

0 前言

感谢 DataWhale 的开源学习课程 intro-mathmodel，项目仓库在这。
现在开始，跟着Task01 进入数据类的学习，实现每一个代码，包括数据预处理、回归分析与分类分析、假设检验、随机过程与随机模拟、数据可视化图表、三种插值模型。
本篇是知识的梳理和总结，用以更好地食用教材，亦或作为后期复盘的资料。
学习重点在于各种常见的统计分析模型的区别总结。
1 数据与大数据

Drew Conway在2010年阐释“数据科学”的时候称：
“数据科学是统计学、计算机科学和领域知识的交叉学科”

2 数据的预处理

2.1 为什么需要数据预处理

在采集完数据后，
我们得到的原始数据往往非常混乱、不全面，模型往往无法从中有效识别并提取信息，
于是建模的首要步骤以及主要步骤便是数据预处理。
现在，我们先学习一个概念——稀疏。
对数据有一定的理解后再正式进行数据预处理操作。
2.2 使用 pandas 处理数据

数据预处理重复数据：直接将其删除即可
缺失数据：主要是观察缺失率

缺失的数据项占比较少（大概5%以内）：这个时候如果问题允许可以把行删掉
缺失率稍微高一点（5%-20%）左右：就可以使用填充、插值的方法去处理
缺失率还高一些（20%-40%）：就需要用预测方法例如机器学习去填充缺失数据了
如果一列数据有50%以上都是缺失的：可以把这一列都删掉（需要条件允许的情况下）

基础demopandas dataframe的基础语法

# （1）Python创建一个数据框DataFrame：
import pandas as pd
import numpy as np
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(data)
df
#（2）显示该 DataFrame 及其数据相关的基本信息：
df.describe()
（3）返回DataFrame df 的前5列数据：
df.head(5)
#（4）从 DataFrame df 选择标签列为 animal 和 age 的列
df[['animal', 'age']]
#（5）在 [3, 4, 8] 行中，列为 ['animal', 'age'] 的数据
df.loc[[3, 4, 8], ['animal', 'age']]
#（6）选择列为visits中等于3的行（: 在这里表示选取所有列。）
df.loc[df['visits']==3, :]
#（7）选择 age 为缺失值的行
df.loc[df['age'].isna(), :]
#（8）选择 animal 是cat且age 小于 3 的行
df.loc[(df['animal'] == 'cat') & (df['age'] < 3), :]
#（9）选择 age 在 2 到 4 之间的数据（包含边界值）
df.loc[(df['age']>=2)&(df['age']<=4), :] # 不能写联不等式，得拆开写
#（10）将 'f' 行的 age 改为 1.5
df.index = labels # 若要对DataFrame行索引操作，需要自行创建行索引。（DataFrame默认是没有激活行索引功能）
df.loc[['f'], ['age']] = 1.5
print(df)
#（11）对 visits 列的数据求和
df['visits'].sum()
#（12）计算每种 animal age 的平均值
df.groupby(['animal'])['age'].mean()

复制代码

案例2：
现在，我们来仿真“每天的商店营业额”这个复合泊松过程吧。
首先，我们假设
每个小时进入商店的平均人数为：[10, 5, 3, 6, 8, 10, 20, 40, 100, 80, 40, 50, 100, 120, 30, 30, 60, 80, 100, 150, 70, 20, 20, 10]，
每位顾客的平均花费为：10元（大约一份早餐吧），
请问每天商店的营业额是多少？

#（1）创建pandas dataframe
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
'Budapest_PaRis', 'Brussels_londOn'],
'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
'12. Air France', '"Swiss Air"']})
df
#（2）FlightNumber列中有某些缺失值，缺失值常用nan表示，请在该列中添加10055与10075填充该缺失值。
df['FlightNumber'] = df['FlightNumber'].interpolate().astype(int)
df
#（3）由于列From_To 代表从地点A到地点B，因此可以将这列拆分成两列，并赋予为列From与To。
temp = df['From_To'].str.split("_", expand=True) # expand=True 参数被设置时，意味着可以将这列拆分成两列
temp.columns = ['From', 'To']
#（4）将列From和To转化成只有首字母大写的形式。
temp['From'] = temp['From'].str.capitalize()
temp['To'] = temp['To'].str.capitalize()
#（5）将列From_To从df中去除，并把列From和To添加到df中
df.drop('From_To', axis=1, inplace=True)
df[['From', 'To']] = temp
df
#（6）清除列中的特殊字符，只留下航空公司的名字。
# str.extract 是一个用于从字符串中抽取匹配正则表达式的部分的方法。
# 这里的正则表达式 r'([a-zA-Z\s]+)' 匹配一个或多个字母 (a-z, A-Z) 或空白字符（\s）。+表示字母和空格的模式可以重复一次或多次。
# expand=False 参数被设置时，意味着返回的将是 Series，
# expand=True 参数为默认值，意味着返回的将是 DataFrame。
df['Airline'] = df['Airline'].str.extract(r'([a-zA-Z\s]+)', expand=False).str.strip()
df
#（7）在 RecentDelays 列中，值已作为列表输入到 DataFrame 中。
# 我们希望每个第一个值在它自己的列中，
# 每个第二个值在它自己的列中，
# 依此类推。如果没有第 N 个值，则该值应为 NaN。
# 将 Series 列表展开成名为 delays 的 DataFrame，
# 重命名列delay_1，delay_2等等，
# 并将不需要的 RecentDelays 列替换df为delays。
delays = df['RecentDelays'].apply(pd.Series)
delays.columns = ['delay_%s' % i for i in range(1, len(delays.columns)+1)]
df = df.drop('RecentDelays', axis=1).join(delays, how='left') # 左连接：确保其结果会包含左侧DataFrame（即df）的所有行
df
#（8）将delay_i列的控制nan都填为自身的平均值。
for i in range(1, 4):
df[f'delay_{i}'] = df[f'delay_{i}'].fillna(np.mean(df[f'delay_{i}'])) # f 是为了创建格式化字符串字面量
df
#（9）在df中增加一行，值与FlightNumber=10085的行保持一致。
df = df._append(df.loc[df['FlightNumber'] == 10085, :], ignore_index=True)
df
#（10）对df进行去重，由于df添加了一行的值与FlightNumber=10085的行一样的行，因此去重时需要去掉。
df = df.drop_duplicates()
df

复制代码

案例3：
艾滋病发展过程分为四个阶段（状态），
急性感染期（状态 1）、无症状期（状态 2），艾滋病前期（状态 3）, 典型艾滋病期（状态 4）。
艾滋病发展过程基本上是一个不可逆的过程,即：状态1 -> 状态2 -> 状态3 -> 状态4。现在收集某地600例艾滋病防控数据，得到以下表格

现在，我们希望计算若一个人此时是无症状期（状态2）在10次转移之后，这个人的各状态的概率是多少？

# 模拟仿真研究该道路口一天平均有多少车经过
import numpy as np
import simpy
class Road_Crossing:
def __init__(self, env):
self.road_crossing_container = simpy.Container(env, capacity = 1e8, init = 0)
def come_across(env, road_crossing, lmd):
while True:
body_time = np.random.exponential(1.0/(lmd/60)) # 经过指数分布的时间后，泊松过程记录数+1
yield env.timeout(body_time) # 经过body_time个时间
yield road_crossing.road_crossing_container.put(1)
hours = 24 # 一天24h
minutes = 60 # 一个小时60min
days = 3 # 模拟3天
lmd_ls = [30, 20, 10, 6, 8, 20, 40, 100, 250, 200, 100, 65, 100, 120, 100, 120, 200, 220, 240, 180, 150, 100, 50, 40] # 每隔小时平均通过车辆数
car_sum = [] # 存储每一天的通过路口的车辆数之和
print('仿真开始：')
for day in range(days):
day_car_sum = 0 # 记录每天的通过车辆数之和
for hour, lmd in enumerate(lmd_ls):
env = simpy.Environment()
road_crossing = Road_Crossing(env)
come_across_process = env.process(come_across(env, road_crossing, lmd))
env.run(until = 60) # 每次仿真60min
if hour % 4 == 0:
print("第"+str(day+1)+"天，第"+str(hour+1)+"时的车辆数：", road_crossing.road_crossing_container.level)
day_car_sum += road_crossing.road_crossing_container.level
car_sum.append(day_car_sum)
print("每天通过交通路口的的车辆数之和为：", car_sum)

复制代码

4 数据可视化

4.1 Python 三大数据可视化工具库的简介

Matplotlib 的绘图逻辑是：一句话一个特征。
Seaborn 把数据拟合等统计属性高度集成在绘图函数中，绘图功能还是构筑在Matplotlib之上。
Plotnine 的绘图逻辑是：一句话一个图层。
4.2 基本图表 Quick Start

5  插值模型

5.1  线性插值法

$$
{L_1}(x) = {y_k} + \frac{{{y_{k + 1}} - {y_k}}}{{{x_{k + 1}} - {x_k}}}(x - {x_k}) \tag{5.1}
$$
5.2 三次样条插值

$$
{a_i}x_i^3 + {b_i}x_i^2 + {c_i}{x_i} + {d_i} = {a_{i + 1}}x_{i + 1}^3 + {b_{i + 1}}x_{i + 1}^2 + {c_{i + 1}}{x_{i + 1}} + {d_{i + 1}} \tag{5.2}
$$$$
3{a_i}x_i^2 + 2{b_i}{x_i} + {c_i} = 3{a_{i + 1}}x_{i + 1}^2 + 2{b_{i + 1}}{x_{i + 1}} + {c_{i + 1}} \tag{5.3}
$$$$
6{a_i}{x_i} + 2{b_i} = 6{a_{i + 1}}{x_{i + 1}} + 2{b_{i + 1}} \tag{5.4}
$$
5.3 拉格朗日插值

对于一组数据{y}和下标{x}，定义n个拉格朗日插值基函数：
$$
{l_k}(x) = \prod\limits_{i = 0,i \ne k}^n {\frac{{x - {x_i}}}{{{x_k} - {x_i}}}}    \tag{5.5}
$$
这本质上是一个分式，当 x=xk 时 lk(x)=1，这一操作实现了离散数据的连续化。
按照对应下标的函数值加权求和可以得到整体的拉格朗日插值函数：
$$
L(x) = \sum\limits_{k = 0}^n {{y_k}{l_k}(x)} \tag{5.6}
$$
Read more

数学建模导论 intro-mathmodel
（知识密度大、代码理论兼备）
https://datawhalechina.github.io/intro-mathmodel/#/
Python科学计算 scientific-computing（数学建模导论的前置课程）
（知识密度小、代码实操强悍）
https://datawhalechina.github.io/scientific-computing/#/
数据总动员 Data-Story
（统计分析的原理&大量数学知识）
https://github.com/Git-Model/Modeling-Universe/tree/main/Data-Story

来源:https://www.cnblogs.com/Sullivan-Hua/p/18321791
免责声明：由于采集信息均来自互联网，如果侵犯了您的权益，请联系我们【E-Mail:cb@itdo.tech】我们会及时删除侵权内容，谢谢合作！

【数学建模导论】Task01 数据处理与拟合模型

本帖子中包含更多资源