翼度科技»论坛 编程开发 python 查看内容

【Python学习笔记】 第4章 介绍Python对象类型

6

主题

6

帖子

18

积分

新手上路

Rank: 1

积分
18
在Python中,数据以对象的形式出现,包括内置对象和自己创建的对象。在这一章中,我们首先了解Python的内置对象。
Python知识结构

Python程序可以分为模块、语句、表达式以及对象:

  • 程序由模块构成
  • 模块包含语句
  • 语句包含表达式
  • 表达式创建并处理对象
为什么使用内置类型


  • 内置对象使程序更容易编写
  • 内置对象是可扩展的组件
  • 内置对象往往比定制的数据结构更加有效率
  • 内置对象是语言标准的一部分
Python核心数据类型

对象类型字面量/构造示例数字1234, 3.1415, 3+4j, 0b111, Decimal(), Fraction()字符串'spam', "Bob's", b'a\x01c', u'sp\xc4m'列表[1,[2,'three'],4.5], list(range(10))字典{'food':'spam', 'taste':'yum'}, dict(hours=10)元组(1,'spam',4,'U'), tuple('spam'), namedtuple文件open('egg.txt'), open(r'C:\ham.bin', 'wb')集合set('abc'), {'a', 'b', 'c'}其他核心类型类型、None、布尔型程序单元类型函数、模块、类Python实现相关类型已编译代码、调用栈跟踪把上述类型称为核心数据类型,是因为它们在Python语言内部高效创建。
一旦创建了对象,它就和操作绑定。比如:只能对字符串进行字符串相关的操作;只能对列表进行列表相关的操作。
数字

Python支持基本的数学运算:加号+代表加法,星号*代表乘法,双星号**代表幂。
  1. >>> 123 + 222
  2. 345
  3. >>> 1.5 * 4
  4. 6.0
  5. >>> 2 ** 100
  6. 1267650600228229401496703205376
复制代码
最后一个结果表明了,Python3可以支持很大的整数类型。
对于浮点数,存在两种打印它们的模式:全精度模式和用户友好模式。
除了表达式,我们可以使用Python安装后的内置数学模块。
  1. >>> import math
  2. >>> math.pi
  3. 3.141592653589793
  4. >>> math.sqrt(85)
  5. 9.219544457292887
复制代码
random模块作为随机数字的生成器和随机选择器(如:从列表中选择)。
  1. >>> import random
  2. >>> random.random()
  3. 0.7710488760534042
  4. >>> random.random()
  5. 0.8677574676564624
  6. >>> random.random()
  7. 0.9501398019386395
  8. >>> random.choice([1,2,3,4])
  9. 4
  10. >>> random.choice([1,2,3,4])
  11. 3
  12. >>> random.choice([1,2,3,4])
  13. 1
复制代码
字符串

序列操作

我们可以对字符串采取序列操作,比如取长度len()和索引操作:
  1. >>> S = 'Spam'
  2. >>> len(S)
  3. 4
  4. >>> S[0]
  5. 'S'
  6. >>> S[1]
  7. 'p'
复制代码
索引从0开始,从左往右递增。
注意到,我们把字符串值赋值给了变量S,这样就创建了一个变量(不需要提前声明)。
我们可以对字符串反向索引。反向索引从-1开始,从右往左递减。
  1. >>> S[-1]
  2. 'm'
  3. >>> S[-2]
  4. 'a'
复制代码
序列支持分片操作,即提取整个分片。
  1. >>> S
  2. 'Spam'
  3. >>> S[1:3]
  4. 'pa'
复制代码
这种分片的语法是:X[I:J],表示“取出X的偏移量为I,直到但不包括偏移量为J的内容”。结果:返回一个新的对象。上述的分片操作创建新的字符串。
分片X[I:J]中,冒号左右两个参数都可以省略。如果左边的参数省略,那么切片从X[0]开始;如果右边的参数省略,那么切片一直到序列的末尾结束。
  1. >>> S[1:]   # 同S[1:len(S)]
  2. 'pam'
  3. >>> S       # S不变
  4. 'Spam'
  5. >>> S[0:3]
  6. 'Spa'
  7. >>> S[:3]   # 同S[0:3]
  8. 'Spa'
  9. >>> S[:-1]
  10. 'Spa'
  11. >>> S[:]    # 同S[0:len(S)]
复制代码
序列也支持用加号拼接得到新字符串,或者通过数乘重复。
  1. >>> S
  2. 'Spam'
  3. >>> S + 'xyz'
  4. 'Spamxyz'
  5. >>> S
  6. 'Spam'
  7. >>> S * 8
  8. 'SpamSpamSpamSpamSpamSpamSpamSpam'
复制代码
不可变性

不能通过索引修改字符串,但可以通过创建新字符串的方式修改:

在核心类型中,数字、字符串和元组不可变,但列表、字典和集合可变。
如果我们要通过索引修改字符串,我们要把它扩展为列表,或者使用bytearray类型:
  1. >>> S = 'shrubbery'
  2. >>> L = list(S)
  3. >>> L
  4. ['s', 'h', 'r', 'u', 'b', 'b', 'e', 'r', 'y']
  5. >>> L[1] = 'c'
  6. >>> ''.join(L)
  7. 'scrubbery'
  8. >>> B = bytearray(b'spam')
  9. >>> B.extend(b'eggs')
  10. >>> B
  11. bytearray(b'spameggs')
  12. >>> B.decode()
  13. 'spameggs'
复制代码
特定类型的方法

我们以及介绍了字符串类型中的列表操作,下面是对字符串特定的操作。
find方法是子字符串查找操作,返回子字符串第一个字符在字符串的位置,如果没找到则为-1。
  1. >>> S = 'spam'
  2. >>> S.find('pa')
  3. 1
复制代码
replace方法对子字符串进行搜索并替换掉子字符串。
  1. >>> S
  2. 'spam'
  3. >>> S.replace('pa', 'XYZ')
  4. 'sXYZm'
  5. >>> S
  6. 'spam'
复制代码
这两种方法都不会改变原来的字符串。
以下也是字符串的操作。
通过分隔符将字符串拆分为子字符串:
  1. >>> line = 'aaa,bbb,ccccc,dd'
  2. >>> line.split(',')
  3. ['aaa', 'bbb', 'ccccc', 'dd']
复制代码
大小写变换,测试字符串内容(是否为大写/小写/数字,这里检测是否为大写):
  1. >>> S = 'spam'
  2. >>> S.upper()
  3. 'SPAM'
  4. >>> S.isalpha()
  5. True
复制代码
去掉字符串后的空字符(包括空格' '、换行'\n'、Tab'\t'等等)
  1. >>> line = 'aaa,bbb,ccccc,dd'
  2. >>> line.rstrip()               # 这里书本错了,写成line = rstrip()
  3. 'aaa,bbb,ccccc,dd'
  4. >>> line.rstrip().split(',')
  5. ['aaa', 'bbb', 'ccccc', 'dd']
复制代码
字符串支持一个叫做格式化的高级替代操作(以下是格式化字符串的三个版本):
  1. >>> '%s, eggs, and %s' % ('spam', 'SPAM!')
  2. 'spam, eggs, and SPAM!'
  3. >>> '{0}, eggs, and {1}'.format('spam', 'SPAM!')
  4. 'spam, eggs, and SPAM!'
  5. >>> '{}, eggs, and {}'.format('spam', 'SPAM!')
  6. 'spam, eggs, and SPAM!'
复制代码
这部分内容会在后面的章节介绍。
寻求帮助

事实上,字符串类型还有许多方法。我们可以调用dir查看这些方法:
  1. >>> dir(S)
  2. ['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isascii', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'removeprefix', 'removesuffix', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']
复制代码
注意到像__add__这种带双下划线的方法,它是真正执行字符串拼接的函数(类似于操作符重载)。
  1. >>> S + 'NI!'
  2. 'spamNI!'
  3. >>> S.__add__('NI!')
  4. 'spamNI!'
复制代码
我们可以通过help来查询某一个方法的作用是什么:
  1. >>> help(S.replace)
  2. Help on built-in function replace:
  3. replace(old, new, count=-1, /) method of builtins.str instance
  4.     Return a copy with all occurrences of substring old replaced by new.
  5.       count
  6.         Maximum number of occurrences to replace.
  7.         -1 (the default value) means replace all occurrences.
  8.     If the optional argument count is given, only the first count occurrences are
  9.     replaced.
复制代码
或者对整个类型进行查询(可能不可行):
  1. >>> help(S)
  2. No Python documentation found for 'spam'.
  3. Use help() to get the interactive help utility.
  4. Use help(str) for help on the str class.
复制代码
字符串编程的其他方式

反斜杠转义序列代表特殊字符,也可以用于十六进制的ASCII码:
  1. >>> S = 'A\nB\tC\x30\x31\x32'
  2. >>> S
  3. 'A\nB\tC012'
复制代码
通过ord查询字符对应的ASCII码:
  1. >>> ord('\n')
  2. 10
复制代码
Python允许字符串包括在单引号或双引号中,也允许多行字符串包含在三个引号中。如果用三个引号表示,那么会在末尾处加上'\n'。
  1. >>> msg = """
  2. ... aaa
  3. ... bbb'''bbb
  4. ... ddd"ddd
  5. ... ccc
  6. ... """
  7. >>> msg
  8. '\naaa\nbbb\'\'\'bbb\nddd"ddd\nccc\n'
复制代码
Unicode字符串

Python支持Unicode,以支持其他语言(包括中文)的文本。
在Python3中,基本的str字符串能够处理Unicode;在Python2中,str字符串处理8位的基于字符的字符串,并有一个独特的unicode字符串类型。
  1. >>> 'sp\xc4m'
  2. 'spÄm'
复制代码
一些Unicode码的一个字符大于一个字节。而bytearray类型是一种bytes字符串,相当于Python 2中的str类型。
  1. >>> 'spam'.encode('utf8')
  2. b'spam'
  3. >>> 'spam'.encode('utf16')
  4. b'\xff\xfes\x00p\x00a\x00m\x00'
复制代码
Python还支持编码非ASCII字符,包括以\x开头、以\u开头的、以\U开头的。
  1. >>> 'sp\xc4\u00c4\U000000c4m'
  2. 'spÄÄÄm'
复制代码
这些值得意义及其使用方式在不同得文本字符串和字节字符串中是不同的:文本字符串包括3.X中的普通字符串和2.X中的unicode字符串;字节字符串包括3.X的bytearray和2.X中的普通字符串。
Python3禁止在没有显式转型的情况下,将普通字符串与字节串混合:
  1. >>> u'x' + b'y'
  2. Traceback (most recent call last):
  3.   File "<stdin>", line 1, in <module>
  4. TypeError: can only concatenate str (not "bytes") to str
  5. >>> u'x' + 'y'
  6. 'xy'
  7. >>> 'x' + b'y'.decode()
  8. 'xy'
  9. >>> 'x'.encode() + b'y'
  10. b'xy'
复制代码
文本文件实现了特定的编码,接受、返回str,但二进制文件接受、返回bytearray。
模式匹配

模式匹配不在Python的内置语言的方法中,我们只能导入模块re:
  1. >>> import re
  2. >>> match = re.match('Hello[ \t]*(.*)world', 'Hello     Python world')
  3. >>> match.group(1)
  4. 'Python '
复制代码
它表示,搜索子字符串,它以"Hello"为开始,后面跟着几个制表符或空格,接着任意字符并将其保存在匹配组中,以"world"结尾。
列表

列表是一个任意类型的对象的位置相关的有序集合,并且可变。
序列操作

我们以一个有三个元素的列表为例。
  1. >>> L = [123, 'spam', 1.23]
复制代码
取长度:
  1. >>> len(L)
  2. 3
复制代码
通过索引取列表中的元素:
  1. >>> L[0]
  2. 123
复制代码
切片:
  1. >>> L[:-1]
  2. [123, 'spam']
复制代码
与序列相加:
  1. >>> L + [4, 5, 6]
  2. [123, 'spam', 1.23, 4, 5, 6]
复制代码
数乘:
  1. >>> L * 2
  2. [123, 'spam', 1.23, 123, 'spam', 1.23]
复制代码
以上操作都不会对列表产生变化。
  1. >>> L
  2. [123, 'spam', 1.23]
复制代码
特定类型的操作

列表没有固定类型的操作,可以包含不同类型的任意对象。列表也没有固定大小,可以增加、删减元素:
  1. >>> L.append('NI')
  2. >>> L
  3. [123, 'spam', 1.23, 'NI']
  4. >>> L.pop(2)
  5. 1.23
  6. >>> L
  7. [123, 'spam', 'NI']
复制代码
这里,append方法向列表尾部插入一项;pop方法移除给定位置(偏移量)的一项,让列表减小。类似的方法还有:按位置插入insert、按值移除remove、在尾部添加多个元素extend。
由于列表可变,大多数列表的操作都是改变原来的列表,而不是创建一个新列表:
比如,sort对列表元素排序,reverse翻转列表:
  1. >>> M = ['aa', 'bb', 'cc']
  2. >>> M.sort()
  3. >>> M
  4. ['aa', 'bb', 'cc']
  5. >>> M.reverse()
  6. >>> M
  7. ['cc', 'bb', 'aa']
复制代码
边界检查

超出列表末尾之外的索引会引发错误:
  1. >>> L
  2. [123, 'spam', 'NI']
  3. >>> L[99]
  4. Traceback (most recent call last):
  5.   File "<stdin>", line 1, in <module>
  6. IndexError: list index out of range
  7. >>> L[99] = 1
  8. Traceback (most recent call last):
  9.   File "<stdin>", line 1, in <module>
  10. IndexError: list assignment index out of range
复制代码
嵌套

Python的核心数据类型支持任意组合的嵌套,比如,下面是一个嵌套列表的列表:
  1. >>> M = [[1, 2, 3],
  2. ...      [4, 5, 6],
  3. ...      [7, 8, 9]]
  4. >>> M
  5. [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
复制代码
我们可以通过多种方法获取元素:
  1. >>> M[1]
  2. [4, 5, 6]
  3. >>> M[1][2]
  4. 6
复制代码
推导

Python还有更高级的操作:列表推导表达式。比如,我们要提取上述嵌套列表的第二列:
  1. >>> col2 = [row[1] for row in M]
  2. >>> col2
  3. [2, 5, 8]
  4. >>> M
  5. [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
复制代码
它通过对序列中每一项运行一个表达式来创建一个新列表,每次一个,从左到右。列表推导编写在方括号中,并且使用了同一个变量名的表达式(这里是row)和循环结构(for ... in ...)组成。
这种列表推导可以更复杂,注意第二个列表推导包含了if,即筛选操作:
  1. >>> [row[1] + 1 for row in M]
  2. [3, 6, 9]
  3. >>> [row[1] for row in M if row[1] % 2 == 0]
  4. [2, 8]
复制代码
列表能够在任何可迭代对象上进行迭代。
  1. >>> diag = [M[i][i] for i in [0, 1, 2]]
  2. >>> diag
  3. [1, 5, 9]
  4. >>> doubles = [c * 2 for c in 'spam']
  5. >>> doubles
  6. ['ss', 'pp', 'aa', 'mm']
复制代码
range可以生成整数数列,对应range(i, j, k)而言,i默认为0,k默认为1,表示从i开始,到j为止(不包括j)的从小到大整数序列,k为相邻两个整数的差。要将这些整数数列变为列表,需要用到list()方法。
  1. >>> list(range(4))
  2. [0, 1, 2, 3]
  3. >>> list(range(-6, 7, 2))
  4. [-6, -4, -2, 0, 2, 4, 6]
复制代码
推导式不仅仅可以用在列表中,当推导式在圆括号中,它表示生成器。生成器会自我迭代,比如,对其应用next方法,它会从第一个元素开始,给出下一个项。内置的sum方法求列表中元素的和。
  1. >>> G = (sum(row) for row in M)
  2. >>> next(G)
  3. 6
  4. >>> next(G)
  5. 15
  6. >>> next(G)
  7. 24
复制代码
内置的map方法也可以通过一个函数,对列表中的每个项生成新的列表。
  1. >>> list(map(sum, M))
  2. [6, 15, 24]
复制代码
推导式也可以用在之后讲的集合、字典里。
字典

字典是一种映射,它通过键(key)而不是列表中的偏移存储对象。字典将键映射到相应的值上。
映射操作

字典编写在大括号中,包含一系列的键:值对:
  1. >>> D = {'food': 'Spam', 'quantity': 4, 'color': 'pink'}
复制代码
我们可以通过键作为索引访问、修改值。
  1. >>> D['food']
  2. 'Spam'
  3. >>> D['quantity'] += 1
  4. >>> D
  5. {'food': 'Spam', 'quantity': 5, 'color': 'pink'}
复制代码
由于字典通过键访问元素,因此它没有禁止边界外的赋值(但禁止边界外的访问),而是为其添加一对键-值对。
  1. >>> D = {}
  2. >>> D['name'] = 'Bob'
  3. >>> D['job'] = 'dev'
  4. >>> D['age'] = 40
  5. >>> D
  6. {'name': 'Bob', 'job': 'dev', 'age': 40}
复制代码
我们也可以通过dict函数传递键值参数对,dict中的参数可以是:key1=value1, key2=value2, ...,也可以是zip函数,其中后者的zip的参数是键的列表和值的列表。
  1. >>> bob1 = dict(name='Bob', job='dev', age=40)
  2. >>> bob1
  3. {'name': 'Bob', 'job': 'dev', 'age': 40}
  4. >>> bob2 = dict(zip(['name', 'job', 'age'], ['Bob', 'dev', 40]))
  5. >>> bob2
  6. {'name': 'Bob', 'job': 'dev', 'age': 40}
复制代码
重访嵌套

有时候要记录的信息比较复杂,我们可以将所有内容编写进一个常量:
  1. >>> rec = {'name': {'first': 'Bob', 'last': 'Smith'},
  2. ...        'job': ['dev', 'mgr'],
  3. ...        'age': 40.5}
复制代码
像之前访问矩阵M一样,我们可以访问这个结构的组件,并对这些组件其进行修改:
  1. >>> rec['name']
  2. {'first': 'Bob', 'last': 'Smith'}
  3. >>> rec['name']['last']
  4. 'Smith'
  5. >>> rec['job'].append('janitor')
  6. >>> rec
  7. {'name': {'first': 'Bob', 'last': 'Smith'}, 'job': ['dev', 'mgr', 'janitor'], 'age': 40.5}
复制代码
我们可以看出,Python允许轻松地建立复杂的数据结构,这是C/C++所不具备的。而且,在最后一次引用对象时,Python会自动地回收这个变量占有的空间(而不需要我们手动操作)。
不存在的键:if测试

Python不允许访问不存在的键。
  1. >>> D = {'a': 1, 'b': 2, 'c': 3}
  2. >>> D
  3. {'a': 1, 'b': 2, 'c': 3}
  4. >>> D['e'] = 99
  5. >>> D
  6. {'a': 1, 'b': 2, 'c': 3, 'e': 99}
  7. >>> D['f']
  8. Traceback (most recent call last):
  9.   File "<stdin>", line 1, in <module>
  10. KeyError: 'f'
复制代码
我们可以在访问之前进行测试(直接写表达式,或者用if。在if语句中,如果后面表达式的值为真,则执行子句,否则不执行):
  1. >>> 'f' in D
  2. False
  3. >>> if not 'f' in D:
  4. ...     print('missing')
  5. ...
  6. missing
复制代码
我们也可以通过get方法和if-else语句获取不存在的键。if-else的语法是: if <B> else ,表示如果表达式<B>为真,则取值,否则取值。
  1. >>> value = D.get('x', 0)
  2. >>> value
  3. 0
  4. >>> value = D['x'] if 'x' in D else 0
  5. >>> value
  6. 0
复制代码
键的排序:for循环

我们可以看到,键的排序与我们初始化字典的排序可能不一样。我们可以通过keys方法收集一个键的列表,并使用sort对其进行排序,这样我们可以按照键的顺序访问值。
  1. >>> D = {'d': 1, 'a': 2, 'c': 3, 'e': 4, 'b': 5}
  2. >>> Ks = list(D.keys())
  3. >>> Ks
  4. ['d', 'a', 'c', 'e', 'b']
  5. >>> Ks.sort()
  6. >>> Ks
  7. ['a', 'b', 'c', 'd', 'e']
  8. >>> for Key in Ks:
  9. ...     print(Key, '=>', D[Key])
  10. ...
  11. a => 2
  12. b => 5
  13. c => 3
  14. d => 1
  15. e => 4
复制代码
也可以通过sorted对字典的键排序:
  1. >>> for key in sorted(D):
  2. ...     print(key, '=>', D[key])
  3. ...
  4. a => 2
  5. b => 5
  6. c => 3
  7. d => 1
  8. e => 4
复制代码
在这里,for用于遍历序列(包括字符串、列表)中的所有元素,并对每个元素进行一些操作。
类似的循环语句为while,当while后面的表达式为真,则执行,否则跳过。这两个循环结构后面会说到。
迭代与优化

事实上,for可以作用于遵守迭代协议的任意可迭代对象(如列表、字符串、range)。可迭代对象是在内存中物理存储/“虚拟”的序列。它们的共同特点是:相应next之前先用一个对象对iter内置函数做出相应,在结束时触发异常。
生成器推导表达式就是这样的:它的值通过迭代工具在被请求时生成。迭代协议会在后面中提到。
总之,任何一个从左到右扫描的Python工具(如for)都使用迭代协议。
使用不同的方法对列表实行同样的操作,会使运行时间不同。
元组

元组可以看作是不可修改的序列,它编写在圆括号中。
  1. >>> T = (1, 2)
  2. >>> T
  3. (1, 2)
复制代码
由于元组也是序列,因此他也智齿序列操作:取长度、加号拼接、数乘、索引、切片等等。
为什么用到元组

元组的不可变性提供约束。
文件

文件是Python代码调用在电脑中文件的接口,用于读取/写入任意形式的文件。要创建文件对象,就要使用open函数,open的第一个参数是外部文件的文件名,第二个参数是处理方式(如'w'为写文件)。
  1. >>> f = open('data.txt', 'w')
  2. >>> f.write('Hello\n')
  3. 6
  4. >>> f.write('world\n')
  5. 6
  6. >>> f.close()
复制代码
这样就在当前文件夹下创建文件并用write写入文本。
要读出文件,可以用'r'读取,并用read方法将文件内容读到一个字符串。
  1. >>> f.close()
  2. >>> f = open('data.txt')
  3. >>> text = f.read()
  4. >>> text
  5. 'Hello\nworld\n'
复制代码
文件类型还有许多方法,比如readline(每次读取一行)。
以下是文件方法的列表:
  1. >>> dir(f)
  2. ['_CHUNK_SIZE', '__class__', '__del__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '_checkClosed', '_checkReadable', '_checkSeekable', '_checkWritable', '_finalizing', 'buffer', 'close', 'closed', 'detach', 'encoding', 'errors', 'fileno', 'flush', 'isatty', 'line_buffering', 'mode', 'name', 'newlines', 'read', 'readable', 'readline', 'readlines', 'reconfigure', 'seek', 'seekable', 'tell', 'truncate', 'writable', 'write', 'write_through', 'writelines']
复制代码
二进制字节文件

在Python3.X中,文本文件把内容显示为正常的str字符串,在写入/读取时自动执行Unicode解码和编码;二进制文件把内容显示为一个特定的字节字符串(bytearray)。
二进制文件有许多应用,比如,我们可以将自定义的结构类型(Python中,用到struct模块)打包到二进制文件中,也可以从二进制文件中解码。
将struct打包到二进制文件中:
  1. >>> import struct
  2. >>> packed = struct.pack('>i4sh', 7, b'spam', 8)
  3. >>> packed
  4. b'\x00\x00\x00\x07spam\x00\x08'
  5. >>>
  6. >>> file = open('data.bin', 'wb')
  7. >>> file.write(packed)
  8. 10
  9. >>> file.close()
复制代码
对二进制文件的解码过程,实际上和上述过程相互对称:
  1. >>> data = open('data.bin', 'rb').read()
  2. >>> data
  3. b'\x00\x00\x00\x07spam\x00\x08'
  4. >>> list(data)
  5. [0, 0, 0, 7, 115, 112, 97, 109, 0, 8]
  6. >>> struct.unpack('>i4sh', data)
  7. (7, b'spam', 8)
复制代码
Unicode文本文件

为了访问非ASCII编码的Unicode文本,我们直接传入一个编码名参数。此时Python文件对象采用指定的编码/解码方式。
  1. >>> S = 'sp\xc4m'
  2. >>> file = open('unidata.txt', 'w', encoding = 'utf-8')
  3. >>> file.write(S)
  4. 4
  5. >>> file.close()
  6. >>> text = open('unidata.txt', encoding = 'utf-8').read()
  7. >>> text
  8. 'spÄm'
  9. >>> len(text)
  10. 4
复制代码
我们也可以查看文件内容的二进制形式:
  1. >>> raw = open('unidata.txt', 'rb').read()
  2. >>> raw
  3. b'sp\xc3\x84m'
  4. >>> len(raw)
  5. 5
复制代码
只要提供了正确的编码方式名称,文件中不同类型的字节可以被解码成相同的字符串。
  1. >>> text.encode('latin-1')
  2. b'sp\xc4m'
  3. >>> text.encode('utf-16')
  4. b'\xff\xfes\x00p\x00\xc4\x00m\x00'
  5. >>> len(text.encode('latin-1'))
  6. 4
  7. >>> len(text.encode('utf-16'))
  8. 10
  9. >>> b'\xff\xfes\x00p\x00\xc4\x00m\x00'.decode('utf-16')
  10. 'spÄm'
复制代码
在Python2.X中,Unicode字符串被编码成一个以u开头的形式。
其他类文件工具

管道、先进先出序列、套接字、按键值访问的文件等等。
其他核心类型

集合

集合不是序列,它是无序的,可以在通过set创建,也可以在大括号中列出元素来创建。
  1. >>> X = set('spam')
  2. >>> Y = {'h', 'a', 'm'}
  3. >>> X
  4. {'p', 's', 'a', 'm'}
  5. >>> Y
  6. {'m', 'h', 'a'}
复制代码
集合的操作:|并集,&交集,-差集,>是否包含。
  1. >>> X & Y
  2. {'m', 'a'}
  3. >>> X | Y
  4. {'m', 'a', 'h', 'p', 's'}
  5. >>> X - Y
  6. {'p', 's'}
  7. >>> X > Y
  8. False
复制代码
集合的性质:元素不重复,因此我们可以过滤重复对象、分离差异、进行非顺序等价判断。
  1. >>> list(set([1, 2, 1, 2, 3]))
  2. [1, 2, 3]
  3. >>> set('spam') - set('ham')
  4. {'p', 's'}
  5. >>> set('spam') == set('asmp')
  6. True
复制代码
新的数值类型

十进制数(固定精度浮点数)
  1. >>> import decimal
  2. >>> d = decimal.Decimal('3.141')
  3. >>> d + 1
  4. Decimal('4.141')
  5. >>> decimal.getcontext().prec = 2
  6. >>> decimal.Decimal('1.00') / decimal.Decimal('3.00')
  7. Decimal('0.33')
复制代码
分数
  1. >>> from fractions import Fraction
  2. >>> f = Fraction(2, 3)
  3. >>> f + 1
  4. Fraction(5, 3)
  5. >>> f + Fraction(1, 2)
  6. Fraction(7, 6)
复制代码
布尔值、None
  1. >>> 1 > 2
  2. False
  3. >>> 2 > 1
  4. True
  5. >>> X = None
  6. >>> X
  7. >>>
复制代码
如何破坏代码的灵活性

内置函数type返回的type对象是一个能够告知其他对象类型的对象。在Python3.X中,该对象和class合并。
  1. >>> type(L)
  2. <class 'list'>
  3. >>> type(type(L))
  4. <class 'type'>
复制代码
应用:检查对象类型。
  1. >>> type(L) == type([])
  2. True
  3. >>> type(L) == list
  4. True
  5. >>> isinstance(L, list)
  6. True
复制代码
检验特定的类型,实际上破坏了Python的灵活性。
用户定义的类

我们可以定义Python核心数据类型中的类。比方说,我们定义一个“员工”类型,它有两个属性:name和pay,以及两个方法lastName和giveRaise。
  1. >>> class Worker:
  2.      def __init__(self, name, pay):
  3.          self.name = name
  4.          self.pay = pay
  5.      def lastName(self):
  6.          return self.name.split()[-1]
  7.      def giveRaise(self, percent):
  8.          self.pay *= (1.0 + percent)
  9. ...
复制代码
然后我们可以创建新类的实例,调用类方法,获取被处理的实例。
  1. >>> bob = Worker('Bob Smith', 50000)
  2. >>> sue = Worker('Sue Smith', 60000)
  3. >>> bob.lastName()
  4. 'Smith'
  5. >>> sue.pay()
  6. Traceback (most recent call last):
  7.   File "<stdin>", line 1, in <module>
  8. TypeError: 'int' object is not callable
  9. >>> sue.pay
  10. 60000
复制代码
剩余的内容

本章没有介绍的类型:与程序执行相关的对象(函数、模块等),偏应用的对象(文本模式、网络连接等)。

来源:https://www.cnblogs.com/hiu-siu-dou/p/18400652
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具