一. 简述valgrind是什么，为何能进行内存泄露

valgrind是一个程序调试及性能分析的工具集，涵盖memcheck, cachegrind,helgrind,callgrind，启动valgrind时通过--tool来指定具体要调用的工具。不论使用哪个工具，通过valgrind来启动程序时都会取得对程序的控制权，从关联库中读取调试信息。然后在valgrind核心提供的虚拟CPU上运行程序，根据选择的工具处理代码，该工具会向代码中植入检测代码，并把这些代码作为最终代码返回给valgrind核心，最后valgrind核心运行这些代码。

我们最常用valgrind进行内存泄露检查，通过 --tool = memcheck --leak-check=yes 指定。需要注意的是，memcheck会加入代码检查每一片内存的访问和进行值运算，导致整体代码大小至少增加12倍，运行速度比平时慢25-50倍，所以使用valgrind时，保证机器环境有足够多的内存，如果进程本身启动内存有十几G，那用valgrind启动程序时，一般启动特别慢，可能1h才能启动程序。或者，valgrind根本就拉不起来程序，此时，需要修改程序的相关配置参数，想办法将程序启动的进程内存减小。

二.编译程序时的注意

1. 编译时，打开调试模式（gcc编译器的-g选项）。

2. 编译时，关闭编译优化选项。一些编译优化选项(比如-O2或者更高的优化选项)，可能会使得memcheck提交错误的未初始化报告，因此，为了使得valgrind的报告更精确，在编译的时候最好不要使用优化选项。

3. 如果程序有对tcmalloc编译依赖的话，需要将tcmalloc从编译依赖中去掉，否则valgrind扫描可能会遗漏一些报警信息。

4. 当检查的是C++程序的时候，还应该考虑另一个选项 -fno-inline。它使得函数调用链很清晰，这样可以减少你在浏览大型C++程序时的混乱。比如在使用这个选项的时候，用memcheck检查openoffice就很容易。当然，你可能不会做这项工作，但是使用这一选项使得valgrind生成更精确的错误报告和减少混乱。

三. valgrind下载 & 安装

---> 下载：wget http://www.valgrind.org/downloads/valgrind-3.8.1.tar.bz2

目前最新的版本是：Release 3.12.0 20 October 2016

---> 解压：bzip2 -d valgrind-3.8.1.tar.bz2; tar -xvf valgrind-3.8.1.tar

---> 安装: cd valgrind-3.8.1; ./configure --prefix=/home/work/tools/valgrind-3.8.1.install;make;make install

安装好后在valgrind-3.8.1.install目录里有: bin, lib, include, share 4个子目录

---> 确认是否安装正确：valgrind --version

---> 编辑/etc/profile，将valgrind工具加入PATH，再source /etc/profile，这样每次使用时都是新安装的valgrind

四、valgrind memcheck选项

参见手册 http://www.valgrind.org/docs/manual/mc-manual.html

valgrind的选项非常的多，可以参考翻译手册中的说明进行选用，下面列出几个比较常用的：

Option :--leak-check=no|summary|full|yes [default summary]

Purpose : 当这个选项打开时，会当客户程序结束时查找内存泄露。如果设置为summary，Valgrind会报告有多少内存泄露发生了。如果设置为full或yes，Valgrind给出每一个独立的泄露的详细信息。

Option :--leak-resolution=high|med|low [default low]

Purpose :在做内存泄漏检查时，确定memcheck将怎么样考虑不同的栈是相同的情况。当设置为low时，只需要前两层栈匹配就认为是相同的情况；当设置为med，必须要四层栈匹配，当设置为high时，所有层次的栈都必须匹配。

注意--leak-resolution= 设置并不影响memcheck查找内存泄漏的能力。它只是改变了结果如何输出。

Option: --show-reachable=yes|no [default no]

Purpose : 当这个选项关闭时，内存泄露检测器只显示没有指针指向的内存块，或者只能找到指向块中间的指针。当这个选项打开时，内存泄露检测器还报告有指针指向的内存块。这些块是最有可能出现内存泄露的地方。你的程序可能，至少在原则上，应该在退出前释放这些内存块。这些有指针指向的内存块和没有指针指向的内存块，或者只有内部指针指向的块，都可能产生内存泄露，因为实际上没有一个指向块起始的指针可以拿来释放，即使你想去释放它。

Option: -v

Purpose : 显示详细信息。在各个方面显示你的程序的额外信息，例如：共享对象加载，使用的重置，执行引擎和工具的进程，异常行为的警告信息。重复这个标记可以增加详细的级别。

Option : -fno-inline

Purpose : 当检查的是C++程序的时候，可考虑这个选项-fno-inline。它使得函数调用链很清晰

Option : --max-stackframe=[default: 2000000]

Purpose : 栈的最大值，默认2000000。如果栈指针的偏移超过这个数量，valgrind则会认为程序是切换到了另外一个栈执行。

五. 内存泄露扫描过程

---> 程序启动（如果程序本身内存十几个G，启动非常慢，可能1h多才启动）：

nohup valgrind--tool=memcheck --leak-check=full --show-reachable=yes

--max-stackframe=8000000 --log-file=./valgrind.log [程序启动命令] &

---> 判断程序是否启动成功：

搜索程序端口是否被监听来判断程序是否被valgrind拉起

netstat -anlp|grep 9600|grep LISTEN ##如果进程名是valgrind，则表示程序已经在valgrind环境中启动成功。

---> 给程序放一些请求，请求尽可能覆盖到程序的各个分支

---> 程序优雅退出，不要让服务在valgrind环境里core掉了。尽量服务有捕获kill信号能力，一般kill -9 pid会导致服务core掉。

---> 退出等待个几分钟，让valgrind收集退出信息输出到valgrind.log。最后分析valgrind.log

六. valgrind.log 报告分析

见手册 http://www.valgrind.org/docs/manual/mc-manual.html ，关注关注definitely lost和possible lost处可能的内存泄露。

1）首先搜关键字『LEAK SUMMARY』，看『definitely lost』对应是否有值，如果不为0，肯定有内存泄露。

2）如果有内存泄露，往上搜报告中『definitely lost in loss』的报警处，对照程序代码一一排查。

3）常见内存泄露警告

---> a. Illegal read / Illegal write errors

已释放后的内存进行读/写或数组的越界访问等，valgrind报告程序在尝试读写非法内存，造成的后果是程序易发生segmentation fault（吐core）风险。

Invalid write of size X，访问超出了范围的内存，试图从该内存读取数据

---> b. Use of uninitialised values

检测使用未初始化变量，可以检测在条件判断语句中使用未初始化变量，因此应该养成在声明变量时就进行初始化的习惯

Conditional jump or move depends on uninitialised value(s)

---> c. When a heap block is freed with an inappropriate deallocation function

使用不正确的方法释放内存，比如new/delete , malloc/free使用混淆了，new分配的地方用free释放了

Mismatched free() / delete / delete []

---> d. Illegal frees

重复内存释放，比如2次使用free释放同一块内存

Invalid free() / delete / delete[]

---> e. Overlapping source and destination blocks

针对C语言常见的memcpy, strcpy, strncpy, strcat, strncat拷贝类函数，出现源串和目标串地址重叠

Source and destination overlap in memcpy(0xbffff294, 0xbffff280, 21)

---> f. Fishy argument values

所有内存分配类函数在分配内存时，都会传入一个内存分配大小的数，如果你传入的数大于机器所能分配的最大数时，如64位机器上，你传入的size大于了2**63

Argument 'size' of function malloc has a fishy (possibly negative) value: -3

---> g. Leak detecion

HEAP SUMMARY:

如果指定--show-reachable=yes，在程序退出时memcheck会收集reachable and indirectly lost blocks

LEAK SUMMARY:

memcheck会记录由malloc/new等函数创建的所有的heap blocks，因此在程序退出时，memcheck能够知道哪些block没有free。如下：

definitely lost: 4 bytes in 1 blocks

indirectly lost: 0 bytes in 0 blocks

possibly lost: 0 bytes in 0 blocks

still reachable: 95 bytes in 6 blocks

definitely lost：如果一个block在程序在退出后，memcheck找不到指向它的pointer，一般是由于在代码中对该block没有free造成的，要重点关注。

possibly lost：在程序退出时，memcheck发现仍有 interior pointer（如果一个pointer指向一个block的中间某个位置）指向一个block，那么该block被认为是possibly lost。

still reachable：如果memcheck发现仍有start pointer指向一个block，那么该block就是still reachable。

4）valgrind不能查出哪些错误?

valgrind不对静态数组(分配在栈上)进行边界检查。如果在程序中声明了一个数组:

int main()

{

char x[10];

x[11] = ´a´;

}

valgrind则不会警告你，出于测试目的，你可以把数组改为动态在堆上分配的数组，这样就可能进行边界检查了。这个方法好像有点得不偿失的感觉。

七. 安装或使用中踩得各种坑

1）valgrind: failed to start tool 'memcheck' for platform 'amd64-linux'

解决办法：

该错误是valgrind启动时，无法找到相关工具文件，有可能是安装好后相关lib的path未设置，也有可能是一开始安装就有问题。解决办法如下：

如果已经安装成功，试一下导出VALGRIND_LIB路径，用法如下（假设valgrind已经被安装到/home/work/tools/valgrind目录）：##亲测有效##

export VALGRIND_LIB=/home/work/tools/valgrind3.8.1/lib/valgrind

2）valgrind --version报错

valgrind: mmap((nil), 134512640) failed during startup.

valgrind: is there a hard virtual memory limit set?