Python 相关文件常见的后缀名详解

常见的 Python 文件后缀有:py pycpyopyipywpyd pyx 等。

本文只介绍相对常见的一些后缀名,至于一些特别冷门的文件格式,例如一些文章提到的pyzpywzrpypydepyppyt等,并没有进行研究。因为这些扩展名资料很少,网上搜到的文章似乎都是同一个出处,只是简单提了一句,说了等于没说。

py

最常见的 Python 源代码文件。

实际上如果用 python + 文件 的方式运行代码,只要文件内容相同,后缀名是不重要的,也就是说下面的运行结果都是等价的:

1
2
3
python test.py
python test.txt
python test

pyc

常见的 Python 字节码缓存文件。

pyc文件和py文件一样,都可以直接执行,下面的运行结果都是等价的:

1
2
python test.py
python test.pyc
作用一:提升加载性能

我们知道 Python 代码在执行时,会先由 Python 解析器翻译成 PyCodeObject 对象,俗称字节码 (Byte code),然后交给 Python 解释器来执行字节码。

上述过程中翻译后的字节码是保存在内存中,程序运行结束就没了,而代码没有修改的情况下,每次生成的字节码是一样的,所以每次跑程序都再走一遍翻译字节码的过程有点浪费性能。因此为了提高加载效率,Python 在程序执行结束后会把每个文件的字节码写入到硬盘中保存为 xxx.pyc 文件,这样下一次再执行这个程序时先在目录下找有没有xxx.pyc 文件,如果有这个对应文件且修改时间和xxx.py 文件的修改时间一样,就不用再执行翻译成字节码的过程,直接读取xxx.pyc 文件执行。其实缓存pyc 文件的方式对性能的提升很微小,只有项目文件非常多的时候才能看到显著提升。

默认情况下,我们发现并不是所有的py 文件都会自动生成pyc 文件,只有被其他文件 import 过的文件才会生成对应的pyc 文件。可能 Python 认为被 import 的文件重复使用的概率比较高,而主文件一般只需要加载一次。

简单做个实验可以验证,新建两个 Python 文件hello.pyimport.py,内容如下:

1
2
# hello.py
print("hello")
1
2
# import.py
impot hello

直接运行 python hello.py,并没有生成pyc 文件,而运行python import.py,在当前目录下生成了hello.py对应的pyc 文件。

这里 Python2 和 Python3 有些不同, Python2 是直接在当前目录下生成同名 pyc 文件,Python3 是在当前目录下创建了__pycache__文件夹,然后在文件夹内创建了一个包含 Python 版本信息的xxx.cpython-37.pyc 文件。

Python2

2021050217225593

Python3

20210502172327565

作用二:隐藏源代码

pyc格式是给解释器看的二进制文件,直接用编辑器打开看上去是乱码,所以将 Python 代码先编译成pyc文件再交付给别人使用,一定程度上实现隐藏源代码的效果。

默认情况下,主文件不会生成pyc文件,可以通过 Python 自带的py_compile compileall 库,手动将所有py文件”编译”成pyc文件。

1
2
python -m py_compile *.py
python -m compileall *.py

Python2

20210502172344295

Python3

20210502172352924

反编译 pyc

前面说了,是“一定程度上实现隐藏源代码的效果”,其实可以通过反编译pyc文件来获得py源码,而且反编译的难度并不大。

uncompyle6是一个专门用于将pyc反编译为py源码的第三方库,安装方式:

1
pip install uncompyle6

执行下面命令可以将刚才生成的pyc反编译为py文件:

1
uncompyle6 -o . *.pyc

20210502172413998

打开生成的文件hello.cpython-37.pyimport.cpython-37.py,可以看到和之前的py代码内容一模一样,不过多了一些 Python 的版本信息。

20210502173823484

魔高一尺,道高一丈,有反编译技术就有防止反编译技术,更多了解参见这篇文章:通过字节码混淆来保护Python代码

pyo

优化后的 Python 字节码缓存文件。

pyo文件的作用和pyc文件没啥区别,唯一的优化就是去掉了断言语句,即assert语句。官方文档描述:

When the Python interpreter is invoked with the -O flag, optimized code is generated and stored in .pyo files. The optimizer currently doesn’t help much; it only removes assert statements. When -O is used, all bytecode is optimized; .pyc files are ignored and .py files are compiled to optimized bytecode.

同样可以利用py_compile compileall 库将上面示例的两个文件编译成pyo文件,只是多加一个参数-O,运行结果也没有任何变化:

1
2
python -O -m py_compile *.py
python -O -m compileall *.py

20210502172534260

从 Python3.5 开始,Python 只使用 pyc 而不再使用pyo,所以下面命令也无法生成 pyo文件,生成的依然是 pyc 文件:

1
2
python3 -O -m py_compile *.py
python3 -O -m compileall *.py

202105021725479

pyi

Python 的存根文件,用于代码检查时的类型提示。

pyi文件是PEP484提案规定的一种用于 Python 代码类型提示(Type Hints)的文件。PEPPython Enhancement Proposals,是经过 Python 社区核心开发者讨论并一致同意后,对外发布的一些正式规范文档,例如我们常说的Python之禅(PEP20),代码风格 PEP8 格式化(PEP8),将 print 改为函数(PEP3105)等,关于PEP的更多了解见这篇文章:学习Python,怎能不懂点PEP呢?

常用的 IDE 都会有类型检查提示功能,比如在 PyCharm 中,当我们给一个函数传入一个错误的类型时会给出对应的提示,这其实不是 IDE 的特殊开发的功能,它只是集成了PEP484的规定,利用了已经预先生成好的 pyi文件。

举个例子,os.makedirs是标准库中用于创建文件夹路径的函数,它的入参应该是一个字符串类型,如果传入一个 int 类型,IDE 会立刻给出提示。

20210502172622846

按住ctrl点进去,进入到 os 模块定义os.makedirs的地方,发现前面有个*号,鼠标放上去会提示Has stub item in __init__.pyi

20210502172637274

点击*号就会跳到对应的__init__.pyi文件,这个文件里按照PEP484规定,为os模块每个函数都定义了对应的类型检查规则。

20210502172648395

关于pyi文件的定义规则以及自己如何生成,详见官方文档:PEP 484 – Type Hints

pyw

一种 Python 源代码文件,一般只存在于 Windows 系统。

pyw文件和py文件除了后缀名不一样之外没有任何区别,两者都是 Python 源码文件,前面 py那一节说过“如果用 python + 文件 的方式运行代码,只要文件内容相同,后缀名是不重要的”,这一点在 Windows 系统和 Linux 系统都是一样的。

Windows 系统,新建两个内容相同的 Python 文件hello.pyhello.pyw,用python + 文件 的方式运行,结果一样:

1
2
# hello.py
print("hello")
1
2
# hello.pyw
print("hello")

2021050217270625

那为什么还要有pyw文件呢?

在Windows 系统上双击文件时,系统会根据文件扩展名来调用关联的exe程序来运行这个文件,打开 Python 安装目录,可以看到有python.exepythonw.exe两个exe,其中python.exe关联了py文件,pythonw.exe关联了pyw文件。跟 python.exe 相比,pythonw.exe 运行时不会弹出控制台窗口, stdout 、stderr 和 stdin 都无效,所以像 print 这种把内容输出到 stdout 的操作就不会有打印结果(cmd 窗口都没有了也没有地方显示了)。

20210502172716282

所以在用 Python 开发 GUI 程序时,如果不想让程序运行的时候弹出一个黑乎乎的 cmd 框,就可以将源码文件后缀名改为pyw格式。但是我感觉这个pww格式用处并不大,实际使用很少有人双击py或者pyw文件来运行 Python 代码。我之前曾用tkinter开发过带 Windows 界面的 Python 程序,当时是通过双击 bat脚本启动 Python 脚本同时关闭 cmd 界面框,来避免弹出黑框框的。

pyd

Python 可直接调用的 C 语言动态链接库文件,一般只存在于 Windows 系统。

Python 是一种胶水语言,我们可以将对速度要求比较高的那一部分代码使用 C 语言编写,编译成动态链接库文件,再通过 Python 来调用。一般来说,在 Linux 上是 so文件,在 Windows 系统上是DLL文件。

例如有一个 C 语言编写的 Windows 动态链接库 test_lib.dll,编译前的代码如下:

1
2
3
4
int sum(int x, int y)
{
return x + y;
}

我们可以在 Python 代码中通过下面的方式来调用

1
2
3
4
5
6
7
8
9
# test_lib.dll 放在当前目录下
import ctypes
from ctypes import *

test_lib = ctypes.windll.LoadLibrary("test_lib.dll")
a = ctypes.c_int(1)
b = ctypes.c_int(2)
out = test_lib.sum(a, b)
print(out) # 3

在 Windows 系统上,Python 还有一种 pyd格式的动态链接库,上面的调用方式是先通过ctypes.windll.LoadLibrary 方法将动态链接库加载进来,而pyd格式就可以在 Python 代码中直接import进来,类似下面这样:

1
2
3
4
5
# test_lib.pyd 放在当前目录下
import test_lib

out = test_lib.sum(1, 2)
print(out) # 3

关于 pyd文件和dll文件的区别,可参考官方文档的说明

Is a *.pyd file the same as a DLL?

Yes, .pyd files are dll’s, but there are a few differences. If you have a DLL named foo.pyd, then it must have a function PyInit_foo(). You can then write Python “import foo”, and Python will search for foo.pyd (as well as foo.py, foo.pyc) and if it finds it, will attempt to call PyInit_foo() to initialize it. You do not link your .exe with foo.lib, as that would cause Windows to require the DLL to be present.

Note that the search path for foo.pyd is PYTHONPATH, not the same as the path that Windows uses to search for foo.dll. Also, foo.pyd need not be present to run your program, whereas if you linked your program with a dll, the dll is required. Of course, foo.pyd is required if you want to say import foo. In a DLL, linkage is declared in the source code with __declspec(dllexport). In a .pyd, linkage is defined in a list of available functions.

C 语言代码和 Python 代码都可以通过一定的方法编译成pyd格式的文件,本人并没有实际使用过pyd文件,详细方法可参考下面的文章:

使用C++创建Pyd文件扩展Python模块

Python源代码保护(Python文件编译生成pyd/so库文件)

pyx

Cython 源代码文件。

注意是 Cython 不是 CPython。Cython 可以说是一种编程语言, 它结合了Python 的语法和有 C/C++的效率,用 Cython 写完的代码可以很容易转成 C 语言代码,然后又可以再编译成动态链接库(pyddll)供 Python 调用,所以 Cython 一般用来编写 Python 的 C 扩展,上面说的 Python 文件编译生成 pyd 文件就是利用 Cython 来实现的 。Cython 的源代码文件一般为pyx后缀。

总结

后缀名 作用
py 最常见的 Python 源代码文件。
pyc 常见的 Python 字节码缓存文件,可以反编译成 py 文件。
pyo 另一种 Python 字节码缓存文件,只存在于 Python2 及 Python3.5 之前的版本。
pyi Python 的存根文件,常用于 IDE 代码格式检查时的类型提示。
pyw 另一种 Python 源代码文件,一般只存在于 Windows 系统。
pyd 一种 Python 可直接调用的 C 语言动态链接库文件,一般只存在于 Windows 系统。
pyx Cython 源代码文件,一般用来编写 Python 的 C 扩展。
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2020-2021 杰克小麻雀
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信