一些编程语言中,某些情况下存在未定义行为,以
C
和
C++
最为著名。在这些语言的
标准
中,规定某些操作的语义是未定义的,典型的例子就是程序错误的情况,比如越界
访问
数组
元素。标准允许语言的具体实现做这样的假设:只要是匹配标准的程序代码,就不会出现任何类似的行为。具体到 C/C++ 中,编译器可以选择性地给出相应的诊断信息,但没有对此的强制要求:针对未定义行为,语言实现作出任何反应都是正确的,类似于数字逻辑中的无关项。虽然编译器实现可能会针对未定义行为给出诊断信息,但保证编写的代码中不引发未定义行为是程序员自己的责任。这种假设的成立,通常可以让编译器对代码作出更多优化,同时也便于做更多的编译期检查和
静态程序分析
。
有时候也可能存在对于未定义行为本身的限制性要求。例如,在
CPU
的
指令集
说明中可能将某些形式的指令定为未定义,但如果该CPU支持内存保护,说明中很可能会还会包含一条兜底的规则,要求任何用户态的指令都不会让
操作系统
的安全性受损;这样一来,在执行未定义行为的指令时,就允许CPU破坏用户寄存器,但不允许发生诸如切换到监控模式的操作。
和未指定行为(unspecified behavior)不同,未定义行为强调基于不可移植或错误的程序构造,或使用错误的数据。一个匹配标准的实现可以在假定未定义行为永远不发生(除了显式使用不严格遵守标准的扩展)的基础上进行优化,可能导致原本存在未定义行为(例如有符号数溢出)的程序经过优化后显示出更加明显的错误(例如死循环)。因此,这种未定义行为一般应被视为bug。
[1]
例如这样的C语言代码:
int foo(unsigned char x)
{
int value = 2147483600; /* 假设 int 是 32 位 */
value += x;
if (value < 2147483600)
bar();
return value;
}
因为x是unsigned char不可能为负数,而C语言中有符号整数的
溢出
又是未定义行为,编译器就可以假设执行if语句时value不可能小于 2147483600。因为这里的if没有副作用,条件也永远不成立,所以编译器就可以直接忽略if语句和对函数bar的调用。于是,上述代码在语义上就等价于:
int foo(unsigned char x)
{
int value = 2147483600;
value += x;
return value;
}
如果有符号整数的溢出有明确的“环绕”行为,那么这样的程序转化就是非法的。
代码越复杂,类似的优化就越难被人类发现。如果代码同时还有其它方面的优化,例如
内联
,就更难发现了。
让有符号整数溢出未定义还有另一个好处:存储、操作变量的值时,可以在比变量本身更大的
寄存器
中进行。假设源代码中变量的类型比原生寄存器的宽度要窄(比如常见的在
64位
机器上的int类型),那么编译器就可以在生成
机器码
时把这个变量当作64位有符号数,对代码的语义没有任何影响。反之,如果32位有符号整数的溢出有明确定义,那么在针对64位机器编译时,编译器就必须插入额外的逻辑确保行为匹配预期,因为大多数机器码指令在溢出时行为与寄存器的宽度有关。