翼度科技»论坛 编程开发 python 查看内容

Python机器学习iris数据集预处理和模型训练方式

3

主题

3

帖子

9

积分

新手上路

Rank: 1

积分
9
一、iris数据集简介

iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson`s Iris data set。iris包含150个样本,对应数据集的每行数据。
每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表。
通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(前4列),我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾(setosa)、变色鸢尾(versicolor)、维吉尼亚鸢尾(virginica)这三个名词都是花的品种。iris的每个样本都包含了品种信息,即目标属性(第5列,也叫target或label)
如图所示部分数据:

iris在机器学习中的应用:

  • 属于监督式学习应用:根据花的四个特征预测鸢尾花卉属于(iris-setosa,iris-versicolour,iris-virginica)中的那一品种。
  • 机器学习中经典案例,简单而具有代表性。

二、基本数据操作和模型训练

1.加载iris数据集
  1. # iris数据集加载
  2. from sklearn import datasets
  3. iris = datasets.load_iris()
复制代码
2.展示所有数据
  1. #展示数据
  2. print(iris.data
  3.     )
复制代码
3.展示每列的属性名
  1. print(iris.feature_names)
复制代码
4.展示输出目标结果以及结果的含义
  1. print(iris.target)
  2. print(iris.target_names)
复制代码
5.查看输入和输出数据类型
  1. print(type(iris.data))
  2. print(type(iris.target))
复制代码
6.确认行列维度
  1. print(iris.data.shape)
  2. print(iris.target.shape)
复制代码
7.给x,y赋值
  1. X =iris.data
  2. Y = iris.target
复制代码
8.利用knn模型进行预测结果
  1. from sklearn.neighbors import KNeighborsClassifier
  2. #创建实例,假设k值为1
  3. knn = KNeighborsClassifier(n_neighbors=1)
  4. #训练数据集模型
  5. knn.fit(x,y)
复制代码
9.给定特征的值预测花的品种
  1. #预测某种花的品种
  2. knn.predict([[1,2,3,4]])
复制代码

得到数组的数据 “2” ,它代表的是花萼长度为1、花萼宽度为2、花瓣长度为3、花瓣宽度为4的鸢尾花卉预测结果的品种是第三种:维吉尼亚鸢尾(virginica)
  1. #多种花的预测
  2. x_test = [[1,2,3,4],[2,4,1,2]]
  3. knn.predict(x_test)
  4. `
复制代码

得到数组的数据 “2” 和 “0”,它代表的是

  • 花萼长度为1、花萼宽度为2、花瓣长度为3、花瓣宽度为4的鸢尾花卉预测结果的品种是第三种:维吉尼亚鸢尾(virginica)
  • 花萼长度为2、花萼宽度为4、花瓣长度为1、花瓣宽度为2的鸢尾花卉预测结果的品种是第一种:山鸢尾(setosa)

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

来源:https://www.jb51.net/python/32892820i.htm
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具