让 Python 拥有 C/C++ 一样的速度，编译神器 Codon 发布！_AI科技大本营的博客

相关文章推荐

高大的板栗 · 为什么go语言的hello ...· 2 月前 ·

虚心的薯片 · Linux与R一些错误总结 - 相遂 · 1 月前 ·

知识渊博的硬币 · VB中 ...· 3 周前 ·

忐忑的烤地瓜 · VBA宏:预期语句结束时出现编译错误 - · 3 周前 ·

痛苦的米饭 · 超分之ESPCN-CSDN博客· 11 月前 ·

追风的毛衣 · PUT上传_51CTO博客_put 上传文件· 1 年前 ·

严肃的面包 · django模型中auto_now和auto ...· 1 年前 ·

玩命的火车 · Select DISTINCT ...· 1 年前 ·

想出国的小虾米 · C# WPF ...· 1 年前 ·

编译 | 苏宓

出品 | CSDN（ID：CSDNnews）

Python 的运行速度快吗？虽说不同场景不同定论，但整体而言，它没有 C、Java 快。这也导致 Python 凭借可读性、简单易上手、良好的生态系统横行 AI 领域时，一提到速度，就成为众多开发者头疼的问题。

为了解决这一难题，麻省理工学院的计算机科学家出手了，他们共同研发了一种名为 Codon 的 Python 编译器，可以将 Python 代码转化为本地机器代码，而不会对运行时的性能产生影响。

当前，Codon 已经在 GitHub 上开源：https://github.com/exaloop/codon，斩获 6300 个 Star。

Codon 与 C/C++ 性能相当

"在单线程上，比 Python 的典型速度提高了 10-100 倍或更多，"Codon repo写道，"Codon 的性能通常与 C/C++ 的性能相当（有时甚至更好）。"

与 Python 不同的是，Codon 支持本地多线程，这可以使速度提高许多倍。

Codon 最初是作为一个在 Python 中创建高性能特定领域语言（DSL，domain-specific language）的框架而开发的。DSL 是专注于特定目的的语言，而不是像 Python 或 C 这样的通用编程语言。

据官方 GitHub repo 透露，Codon 源于 Seq 项目，后者是一个用于生物信息学和遗传学的 DSL，现如今它已经成长为一个与 Python 3 基本兼容的语言编译器。

近期，外媒 The Register 通过该工具的研究团队内部最新分享了一个关于 Codon 的论文。本论文的作者包含了，MIT、维多利亚大学等多名研究人员，如 Ariya Shajii（Exaloop）、Gabriel Ramirez（MIT CSAIL）、Haris Smajlović（加拿大维多利亚大学）、Jessica Ray（MIT CSAIL）、Bonnie Berger（MIT CSAIL）、Saman Amarasinghe（MIT CSAIL）和 Ibrahim Numanagić（维多利亚大学）。

这篇论文指出，"与其他面向性能的 Python 实现（如 PyPy 或 Numba）不同，Codon 是作为一个独立的系统从头开始构建的，它可以提前编译为静态可执行文件，并且不与现有的 Python 运行时（如 CPython 或 RPython）绑定执行。因此，Codon 可以实现更好的性能，并克服运行时的特定问题，如全局解释器锁"。

在论文中，作者也讨论了各种基于 Codon 的高性能 DSL，这些 DSL 设计用于生物信息学、数据压缩和并行编程，也利用了 Codon 的编译器基础设施。但是 Codon 可以大幅加速标准的 Python 程序，尽管那些依赖外部库（如 Django 或 DocUtils）的程序必须依赖 CPython 桥接，这就限制了 CPython 的性能。

"Codon 不需要使用像 numpy 这样的 C 语言实现的库来重写程序，也不需要完全用 C 语言重写，而是可以使用相同的 Python 实现，并给出你用 C 语言重写的相同性能"，麻省理工学院教授和 CSAIL 首席研究员 Saman Amarasinghe说道，"因此，我相信 Codon 是成功的 Python 应用程序的最简单的前进道路，这些应用程序由于缺乏性能而达到了一个极限。"

那么 Codon 是否真的如说的那样快？在 Codon 论坛上，一位开发者进行了测试：

$ cat fib.py 
def fib(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fib(n-1) + fib(n-2)
if __name__ == "__main__":
    import sys
    print(fib(int(sys.argv[1])))

CPython 3.11

$ python fib.py 40
102334155
# mem: 8'816_KB
# time: 18.42_s

PyPy 7.3.9

$ pypy fib.py 40
102334155
# mem: 74'596_kB
# time: 4.99_s
# ~= 3.7x

Codon compiled

$ codon build -release fib.py
$ ./fib 40
102334155
# mem: 5'612_kB
# time: 0.26_s
# ~= 70.8x

Codon with python interpreter

# in fibpy.py, we just add `@python` decorator to fib function
$ codon build -release fibpy.py
export CODON_PYTHON=/path/to/libpython3.11.so
$ ./fibpy 40
102334155
# mem: 12'828
# time: 18.49
# ~= 1x

最终发现，一个简单的 Codon 编译的斐波那契脚本比 CPython 版本快 70 多倍。

除此之外，该研究团队也在 GitHub 上贴出了 Codon 基准测试套件的结果，比较了 Python、PyPy、C++ 和 Codon 在一系列任务和应用上的表现。该基准测试是在以下设置上运行的：

最终结果如下所示：

据 Codon 官方文档显示，虽然 Codon 的语法和语义与 Python 的几乎相同，但还是有一些值得一提的区别，如数据类型方面：

整数。Codon 的 int 是一个 64 位有符号的整数，而 Python 的（在版本 3 之后）可以是任意大的。然而 Codon 通过 Int[N] 支持更大的整数，其中 N 是位宽。
字符串。Codon 目前使用 ASCII 字符串，与 Python 的 unicode 字符串不同。
字典。Codon 的字典类型不保留插入顺序，与 Python 3.6 的不同。

此外，Codon 和 Python 在类型检查、数值运算、模块等维度还有些许的不同，更详细的内容可参考：https://docs.exaloop.io/codon/general/differences据悉，Codon 已经被商业化地应用在金融和生物信息学、深度学习等领域。

参考来源：

https://www.theregister.com/2023/03/11/python_codon_compiler/

GitHub 地址：https://github.com/exaloop/codon

编译 | 苏宓出品 | CSDN（ID：CSDNnews）Python 的运行速度快吗？虽说不同场景不同定论，但整体而言，它没有 C、Java 快。这也导致Python 凭借可读性、简单易上手、良好的生态系统横行 AI 领域时，一提到速度，就成为众多开发者头疼的问题。为了解决这一难题，麻省理工学院的计算机科学家出手了，他们共同研发了一种名为Codon 的 Python 编译器，可以将 Pyth... 2、强制类型转换如(int)a,而不是int(a) 3、取整数部分用(int)3.14 4、if (a>b)后边不加冒号，条件要用括号括起来，当if语句块不只一条时要用{}括起来。 5、 C++ 不必考虑缩进加“壳”，能在 C++ 中进行操作，但是不发生数据拷贝，底层的存储方式还是按照 python 的方式；数据类型转换，从 python 中的存储方式，直接转换成 C++ 中的数据类型，发生数据拷贝，效率较低，尤其是在数据量比较大的情况下，这种转换的代价很高。这一点非常值得关注，当 Python 中考虑调用 C++ 接口时，大多情况下都是为了提高程序的运行速率（有时候可能是为了能够调用 C++ 的库）。因此，通过以上哪一种方式传递数据需要衡量。如果你有现成的C

Python 时现在很火的一种语言，在云计算、人工智能、自动化测试等领域使用率非常高。之所以有这么大的市场使用率， python 也是有它自己的独特之处，首先 python 易学，并且是一种解释性语言，不需要经过编译，并且它有着非常丰富的第三方库，可以帮助你处理各种工作，包括：电子邮件、数据库、web、GUI、单元测试等。 Python 采用强制缩进的方式使得代码有着极佳的可读性。 seq = Seq(sequence, generic_dna) aa_lengths = [] for strand, nuc in [(+1, seq), (-1, seq.reverse_complement())]: for frame in range(3): length = for codon in range(frame, len(nuc)-2, 3): if nuc[ codon : codon +3] in ['ATG', 'GTG', 'TTG']: length += 1 elif nuc[ codon : codon +3] in ['TAA', 'TAG', 'TGA']: aa_lengths.append(length) length = aa_lengths.append(length) return aa_lengths # 读取FASTA文件 record = SeqIO.read("sequence.fasta", "fasta") # 统计ORF的氨基酸长度 aa_lengths = count_ORF_aa_length(str(record.seq)) # 输出结果 print("ORF的氨基酸长度：", aa_lengths) 这个脚本使用了Bio python 库中的SeqIO、Seq和generic_dna模块，可以统计一个DNA序列中所有ORF的氨基酸长度。