一些编程语言中,某些情况下存在未定义行为,以 C C++ 最为著名。在这些语言的 标准 中,规定某些操作的语义是未定义的,典型的例子就是程序错误的情况,比如越界 访问 数组 元素。标准允许语言的具体实现做这样的假设:只要是匹配标准的程序代码,就不会出现任何类似的行为。具体到 C/C++ 中,编译器可以选择性地给出相应的诊断信息,但没有对此的强制要求:针对未定义行为,语言实现作出任何反应都是正确的,类似于数字逻辑中的无关项。虽然编译器实现可能会针对未定义行为给出诊断信息,但保证编写的代码中不引发未定义行为是程序员自己的责任。这种假设的成立,通常可以让编译器对代码作出更多优化,同时也便于做更多的编译期检查和 静态程序分析 。 有时候也可能存在对于未定义行为本身的限制性要求。例如,在 CPU 指令集 说明中可能将某些形式的指令定为未定义,但如果该CPU支持内存保护,说明中很可能会还会包含一条兜底的规则,要求任何用户态的指令都不会让 操作系统 的安全性受损;这样一来,在执行未定义行为的指令时,就允许CPU破坏用户寄存器,但不允许发生诸如切换到监控模式的操作。 和未指定行为(unspecified behavior)不同,未定义行为强调基于不可移植或错误的程序构造,或使用错误的数据。一个匹配标准的实现可以在假定未定义行为永远不发生(除了显式使用不严格遵守标准的扩展)的基础上进行优化,可能导致原本存在未定义行为(例如有符号数溢出)的程序经过优化后显示出更加明显的错误(例如死循环)。因此,这种未定义行为一般应被视为bug。 [1] 例如这样的C语言代码:
int foo(unsigned char x)
{
     int value = 2147483600; /* 假设 int 是 32 位 */
     value += x;
     if (value < 2147483600)
        bar();
     return value;
}
因为x是unsigned char不可能为负数,而C语言中有符号整数的 溢出 又是未定义行为,编译器就可以假设执行if语句时value不可能小于 2147483600。因为这里的if没有副作用,条件也永远不成立,所以编译器就可以直接忽略if语句和对函数bar的调用。于是,上述代码在语义上就等价于:
int foo(unsigned char x)
{
     int value = 2147483600;
     value += x;
     return value;
}
如果有符号整数的溢出有明确的“环绕”行为,那么这样的程序转化就是非法的。 代码越复杂,类似的优化就越难被人类发现。如果代码同时还有其它方面的优化,例如 内联 ,就更难发现了。 让有符号整数溢出未定义还有另一个好处:存储、操作变量的值时,可以在比变量本身更大的 寄存器 中进行。假设源代码中变量的类型比原生寄存器的宽度要窄(比如常见的在 64位 机器上的int类型),那么编译器就可以在生成 机器码 时把这个变量当作64位有符号数,对代码的语义没有任何影响。反之,如果32位有符号整数的溢出有明确定义,那么在针对64位机器编译时,编译器就必须插入额外的逻辑确保行为匹配预期,因为大多数机器码指令在溢出时行为与寄存器的宽度有关。