10.1.操作系统接口 (Operating System Interface)
os
模块提供了几十种与操作系统交互的函数:
1
2
3
4
5
6
>>> import os
>>> os.getcwd() # 返回当前工作路径
'D:\\Study\\ProgramStudy\\GitHub_Local\\Python-tutorial3.8.1-Ch\\documents\\chap10'
>>> os.chdir(''D:\\Study\\ProgramStudy') # 更改当前工作路径
>>> os.system('mkdir today') # 运行shell系统的 mkdir 命令
0
请确保使用 import os
风格而不是使用 from os import *
,这可以防止 os.open()
覆盖内置 open()
函数,后者的操作大不相同。
内置的 dir()
和 help()
函数对使用如 os
等大型模块的交互帮助很有帮助:
1
2
3
4
5
>>> import os
>>> dir(os) # 返回一个包含所有模块函数的列表
>>> help(os) # 返回由模块文档字符串生成的拓展手册页
对于日常的文件和目录管理任务,shutil
模块提供更易用的更高级的接口:
1
2
3
4
5
>>> import shutil
>>> shutil.copyfile('data.db', 'archive.db')
'archive.db'
>>> shutil.move('/build/executables', 'installdir')
'installdir'
10.2.文件通配符 (File Wildcards)
glob
模块提供了一个从路径通配符搜索中创建文件列表的函数:
1
2
3
>>> import glob
>>> glob.glob('*.py')
['primes.py', 'random.py', 'quote.py']
10.3.命令行参数 (Command Line Arguments)
公用实用程序脚本通常需要处理命令行参数,这些参数作为一个列表存储在 sys
模块中的 argv
属性。例如,下面的结果来自于命令行运行 python demo.py one two three
:
1
2
3
>>> import sys
>>> print(sys.argv)
['demo.py', 'one', 'two', 'three']
argparse
模块提供了更全面的机制来处理命令行参数。下面的脚本在多行中提取一个或多个文件名以及要显示的可选行数:
top.py
1
2
3
4
5
6
7
8
import argparse
parser = argparse.ArgumentParser(prog = 'top',
description = 'Show top lines from each file')
parser.add_argument('filenames', nargs='+')
parser.add_argument('-l', '--lines', type=int, default=10)
args = parse.parse_args()
print(args)
当在命令行运行 python top.py --lines=5 alpha.txt beta.txt
时,这个脚本将 args.lines
设置为 5
和将 args.filenames
设置为 ['alpha.txt', 'beta.txt']
。
10.4.错误输出重定向 (Error Output Redirection and Program Termination)
sys
模块还有属性 stdin
、stdout
和 stserr
。后者对于发出警告和错误信息非常有用,即使在标准输出 (stdout) 被重定向时也可以使它们可见:
1
2
>>> sys.stderr.write('Warning, log file not found starting a new one\n')
Warning, log file not found starting a new one
关闭一个脚本最直接的方式是使用 sys.exit()
。
10.5.字符串模式匹配 (String Pattern Matching)
re
模块提供正则表达式工具用于高级字符串处理。对于复杂的匹配和操作,正则表达式提供了简洁和优化的解决方案:
1
2
3
4
5
>>> import re
>>> re.findall(r'\bf[a-z]*', 'which foot or hand fell fastest')
['foot', 'fell', 'fastest']
>>> re.sub(r'\b[a-z]+' \1', r'\1', 'cat in the the hat')
cat in the hat
当只需简单的功能时,首选字符串方法因为它们更容易阅读和调试:
1
2
>>> 'tea for too'.replace('too', two)
'tea for two'
10.6.数学运算 (Mathematics)
math
模块为浮点运算提供了对底层C语言库函数的访问:
1
2
3
4
5
>>> import math
>>> math.cos(math.pi / 4)
0.70710678118654757
>>> math.log(1024, 2)
10.0
random
模块提供做随机选择的工具:
1
2
3
4
5
6
7
8
9
>>> import random
>>> random.choice(['apple', 'pear', 'banana'])
'apple'
>>>random.sample(range(100), 10) # 无重复采样
[37, 29, 51, 72, 38, 31, 88, 62, 59, 9]
>>> random.random() # 随机浮点数
0.17495269906659483
>>> random.randrange(6) # 从 range(6) 中随机选取一个整数
1
statistics
模块计算数值数据的基本统计性质 (平均数、中位数和方差等)
1
2
3
4
5
6
7
8
>>> import statistics
>>> data = [2.75, 1.75, 1.25, 0.25, 0.5, 1.25, 3.5]
>>> statistics.mean(data)
1.6071428571428572
>>> statistics.median(data)
1.25
>>> statistics.variance(data)
1.3720238095238095
SciPy项目
(https://scipy.org)有很多用于数值计算的其他模块。
10.7.网络访问 (Internet Access)
有很多模块用于访问网络和处理网络协议。两个最简单的模块分别是 urllib.request
用于从ULRs中提取数据以及 smtplib
用于发送邮件:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
>>> from urllib.request import urlopen
>>> with urlopen('http://tycho.usno.navy.mil/cgi-bin/timer.pl') as response:
... for line in response:
... line = line.decode('utf-8') # 将二进制数据解析为文本
... if 'EST' in line or ‘EDT' in line: # 查找西部时间
... print(line)
<BR>Nov. 25, 09:43:32 PM EST
>>> import smtplib
>>> server = smtplib.SMTP('localhost')
>>> server.sendmail('soothsayer@example.org', 'jcaesar@example.org',
... """To: jcaesar@example.org
... From: soothsayer@example.prg
...
... Bewarer the Ides of March.
... """)
>>> server.quit()
(注意,第二个例子需要在 localhost
中运行一个邮件服务器。)
10.8.日期和时间 (Dates and Times)
datetime
模块以简单和复杂的方式提供了处理日期和时间的类。虽然支持日期和时间运算,但实现的重点是为输出格式化和操作提取有效成员。模块还支持时区方面的对象。
1
2
3
4
5
6
7
8
9
10
11
12
13
>>> # 很容易构建和格式化日期
>>> from datetime import date
>>> now = date.today()
>>> now
datetime.date(2020, 1, 31)
>>> now.strftime("%m-%d-%y .%d %b %Y is a %A on the %d day of %B.")
'01-31-20 .31 Jan 2020 is a Friday on the 31 day of January.'
>>> # 日期支持日历算法
>>> birthday = date(1964, 7, 31)
>>> age = now - birthday
>>> age.days
20272
10.9.数据压缩 (Data Compression)
支持公用的数据存档和压缩格式的模块包括:zlib
、 gzip
、 bz2
、 lzma
、 zipfile
和 tarfile
。
1
2
3
4
5
6
7
8
9
10
11
>>> import zlib
>>> s = b'witch which has which witches wrist watch'
>>> len(s)
41
>>> t = zlib.compress(s)
>>> len(t)
37
>>> zlib.decompress(t)
b'witch which has which witches wrist watch'
>>> zlib.crc32(s)
226805979
10.10.性能度量 (Performance Measurement)
一些Python用户对解决相同问题的不同方法之间的相对性能表现浓厚的兴趣。Python提供一个度量工具可以马上回答这些问题。
例如,可以尝试使用元组的封装和解包特性来替代传统的方法来进行参数交换。timeit
模块很快就展示了适度的性能优势:
1
2
3
4
5
>>> from timeit import Timer
>>> Timer('t=a; a=b; b=t', 'a=1; b=2').timeit()
0.57535828626024577
>>> Timer('a,b = b,a', 'a=1; b=2').timeit()
0.54962537085770791
与 timeit
的高精度级别不同,profile
和 pstats
模块提供在较大代码块中识别时间的主要部分的工具。
10.11.质量控制 (Quality Control)
开发高质量软件的一个方法是在开发时为每个功能编写测试,并且在开发过程中频繁运行这些测试。
doctest
模块提供了一个工具,用于扫描并验证嵌入在程序文档字符串中的测试具。测试构建非常简单,只需将一个典型的调用及其结果剪切并粘贴到文档字符串中即可。这通过向用户提供一个示例来改进文档,并且允许doctest
模块确保代码和文档保持一致:
1
2
3
4
5
6
7
8
9
10
def average(values):
"""计算一个数字列表的算术平均值。
>>> print(average([20, 30,70]))
40.0
"""
return sum(values) / len(values)
import doctest
doctest.testmod() # 自动验证嵌入的测试
unittest
模块不像 doctest
模块那么容易,但是它允许在一个独立的文件中维护一组更全面的测试:
1
2
3
4
5
6
7
8
9
10
11
12
import unittest
class TestStatisticalFunctions(unittest.TestCase):
def test_average(self):
self.assertEqual(average([20, 30, 40]), 40.0)
self.assertEqual(round(average([1, 5, 7]), 1), 4.3)
with self.asserRaises(ZeroDivisionError):
average([])
with self.assertRaises(TypeError):
average(20, 30, 70)
unittest.main() # 用命令行调用会调用所有的测试
10.12.功能齐备 (Batteries Included)
Python有一个“功能齐备”的理念。这可以通过其更强大包的复杂和文件的功能得到最好的体现。例如:
xmlrpc.client
和xmlrpc.server
模块使得实现远程过程调用变成了一项几乎不重要的任务。尽管有模块名称,但不需要直接或处理XML的知识。email
包是一个用于管理电子邮件消息的库,包括MIME和其他基于 RFC 2822 的消息文档。与实际发送和接收消息的smtplib
和poplib
不同,email
包具有完整的工具集,用于构建或解码复杂的消息结构 (包括附件)以及实现网络编码和头协议。json
包为解析这种流行的数据交换格式提供了稳健的支持。csv
模块支持直接读写逗号分隔值格式的文件,这个格式文件通常受数据库和电子表格支持。XML处理由xml.etree.ElementTree
,xml.dom
和xml.sax
包支持。总之,这些模块和包一起极大地简化了Python应用程序和其他工具之间的数据交换。sqlite3
模块是应用SQLite数据库的库包装器,它提供了一个可以使用非标准SQL语法更新和访问的持久数据库。- 国际化由许多模块支持,包括
gettext
、locale
和codecs
。包。