翼度科技»论坛 编程开发 python 查看内容

【numpy基础】--数组过滤

7

主题

7

帖子

21

积分

新手上路

Rank: 1

积分
21
在numpy中,数组可以看作是一系列数值的有序集合,可以通过下标访问其中的元素。
处理数组的过程中,经常需要用到数组过滤功能。
过滤功能可以在处理数据时非常有用,因为它可以使数据更加干净和可读性更强。
例如,在进行数据分析时,通常需要去除异常值,过滤掉不必要的元素可以使数据更加易于分析和处理。
numpy本身提供了很多针对特定要求的过滤函数,
不过本篇只介绍最基本的过滤方式,通过最基本的过滤方式来揭示其过滤的原理。
1. 比较

比较是过滤的前提,因为通过比较才能确定过滤的条件。
1.1. 数组和单个数字
  1. import numpy as np
  2. arr = np.random.randint(0, 10, (3, 3))
  3. print(arr)
  4. #运行结果
  5. [[4 1 4]
  6. [7 6 1]
  7. [8 9 5]]
  8. print(arr > 5)
  9. #运行结果
  10. [[False False False]
  11. [ True  True False]
  12. [ True  True False]]
复制代码
数组和单个数字比较,也满足上一篇介绍的广播原则,也就是数组arr的每个元素都和数字5进行了比较。
比较的结果是和arr相同结构的数组,数组中的元素是bool值。
满足比较条件是True,不满足比较条件的是False。
1.2. 数组和数组

除了和单个数字比较之外,数组之间也是可以比较的。
  1. arr1 = np.random.randint(0, 10, (3, 3))
  2. print(arr1)
  3. #运行结果
  4. [[9 7 3]
  5. [2 8 5]
  6. [2 2 3]]
  7. arr2 = np.random.randint(0, 10, (3, 3))
  8. print(arr2)
  9. #运行结果
  10. [[1 6 0]
  11. [0 1 8]
  12. [9 0 5]]
  13. print(arr1 > arr2)
  14. #运行结果
  15. [[ True  True  True]
  16. [ True  True False]
  17. [False  True False]]
复制代码
数组之间的比较就是相同位置的元素之间比较,如果两个数组的结构不一样,会按照上一篇介绍的广播计算方式来扩充数组。
比如:
  1. arr1 = np.random.randint(0, 10, (3, 3))
  2. print(arr1)
  3. #运行结果
  4. [[9 6 0]
  5. [1 4 9]
  6. [1 1 4]]
  7. arr2 = np.random.randint(0, 10, (3, 1))
  8. print(arr2)
  9. #运行结果
  10. [[1]
  11. [0]
  12. [9]]
  13. print(arr1 > arr2)
  14. #运行结果
  15. [[ True  True False]
  16. [ True  True  True]
  17. [False False False]]
复制代码
上面的数组arr2,按广播规则被扩充成:
[[1  1  1]
[0  0  0]
[9  9  9]]
2. 掩码

所谓掩码,其实就是上面的各个示例中的比较结果。
也就是只包含bool值的数组,比如:
[[ True  True False]
[ True  True  True]
[False False False]]
我们就是根据这个掩码,来过滤出数组中的True 或者 False 位置的元素。
3. 过滤

过滤就是根据掩码,选择出符合条件的元素。
3.1. 单条件过滤
  1. arr = np.random.randint(0, 10, (3, 3))
  2. print(arr)
  3. #运行结果
  4. [[8 4 0]
  5. [2 2 9]
  6. [9 5 9]]
  7. print(arr[arr > 5])
  8. #运行结果
  9. [8 9 9 9]
复制代码
最后得到的是arr中值大于5的元素数组。
其中 arr > 5 的结果就是上一节提到的掩码,最后过滤出的元素就是根据这个掩码得到的。
除了跟单独的数字比较,也可以和数组比较:
  1. arr1 = np.random.randint(0, 10, (3, 3))
  2. print(arr1)
  3. #运行结果
  4. [[3 4 7]
  5. [4 6 2]
  6. [7 2 1]]
  7. arr2 = np.random.randint(0, 10, (3, 3))
  8. print(arr2)
  9. #运行结果
  10. [[2 3 1]
  11. [7 7 7]
  12. [1 6 4]]
  13. print(arr1[arr1 > arr2])
  14. #运行结果
  15. [3 4 7 7]
复制代码
3.2. 多条件过滤

多条件过滤使用 & 和 | 来连接不同的条件。
  1. arr1 = np.random.randint(0, 10, (3, 3))
  2. print(arr1)
  3. #运行结果
  4. [[1 0 5]
  5. [7 4 9]
  6. [8 5 4]]
  7. arr2 = np.random.randint(0, 10, (3, 3))
  8. print(arr2)
  9. #运行结果
  10. [[6 4 1]
  11. [0 1 1]
  12. [8 5 8]]
  13. print(arr1[(arr1 > 5) & (arr1 > arr2)])
  14. #运行结果
  15. [7 9]
复制代码
过滤arr1中大于5** 并且 **对应位置比arr2大的元素。
  1. arr1 = np.random.randint(0, 10, (3, 3))
  2. print(arr1)
  3. #运行结果
  4. [[1 0 5]
  5. [7 4 9]
  6. [8 5 4]]
  7. arr2 = np.random.randint(0, 10, (3, 3))
  8. print(arr2)
  9. #运行结果
  10. [[6 4 1]
  11. [0 1 1]
  12. [8 5 8]]
  13. print(arr1[(arr1 > 5) | (arr1 > arr2)])
  14. #运行结果
  15. [5 7 4 9 8]
复制代码
过滤arr1中大于5** 或者 **对应位置比arr2大的元素。
4. 总结回顾

本篇主要介绍了过滤的基本原理,首先从比较开始,比较的结果是掩码,最后通过掩码过滤数组。

来源:https://www.cnblogs.com/wang_yb/p/17515408.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

举报 回复 使用道具