浅谈数值计算程序开发中性能分析的重要性--valgrind工具使用简介及可恶的std::pow

最近一直在做NS方程DG方法实现,写完了程序发现有些时候跑起来出乎意料地慢,我百思不得其解。决定用程序性能分析工具寻找下原因,最后发现原来有个指数计算的地方我用了std::pow这个函数,再加上又用了AD计算导数,导致程序运行百分之九十多的时间都在调用这个函数。而对于正常计算来说,这个地方基本不占用时间。最后,pow函数被替换掉之后发现程序运行时间大大降低,原来运行20min的算例,现在不到2min就能完成。由此可见,很多时候直接使用库函数固然方便,但是考虑到效率问题,使用之前还是要慎重。

关于Valgrind

Valgrind是运行在Linux上一套基于仿真技术的程序调试和分析工具,它包含一个内核──一个软件合成的CPU,和一系列的小工具,每个工具都可以完成一项任务──调试,分析,或测试等。Valgrind可以检测内存泄漏和内存违例,还可以分析cache的使用等,灵活轻巧而又强大,能直穿程序错误的心脏,真可谓是程序员的瑞士军刀。

一、简介

1.Memcheck

用来检测程序中出现的内存问题,所有对内存的读写都会被检测到,一切对malloc()/free()/new/delete的调用都会被捕获。所以,它能检测以下问题:
*. 对未初始化内存的使用;
*. 读/写释放后的内存块;
*. 读/写超出malloc分配的内存块;
*. 读/写不适当的栈中内存块;
*. 内存泄漏,指向一块内存的指针永远丢失;
*. 不正确的malloc/free或new/delete匹配;
*. memcpy()相关函数中的dst和src指针重叠。

2.Callgrind

和gprof类似的分析工具,但它对程序的运行观察更是入微,能给我们提供更多的信息。和gprof不同,它不需要在编译源代码时附加特殊选项,但加上调试选项是推荐的。Callgrind收集程序运行时的一些数据,建立函数调用关系图,还可以有选择地进行cache模拟。在运行结束时,它会把分析数据写入一个文件。callgrind_annotate可以把这个文件的内容转化成可读的形式。

3.Cachegrind

Cache分析器,它模拟CPU中的一级缓存I1,Dl和二级缓存,能够精确地指出程序中cache的丢失和命中。如果需要,它还能够为我们提供cache丢失次数,内存引用次数,以及每行代码,每个函数,每个模块,整个程序产生的指令数。这对优化程序有很大的帮助。

4.Helgrind

它主要用来检查多线程程序中出现的竞争问题。Helgrind寻找内存中被多个线程访问,而又没有一贯加锁的区域,这些区域往往是线程之间失去同步的地方,而且会导致难以发掘的错误。Helgrind实现了名为“Eraser”的竞争检测算法,并做了进一步改进,减少了报告错误的次数。不过,Helgrind仍然处于实验阶段。

5.Massif

堆栈分析器,它能测量程序在堆栈中使用了多少内存,告诉我们堆块,堆管理块和栈的大小。Massif能帮助我们减少内存的使用,在带有虚拟内存的现代系统中,它还能够加速我们程序的运行,减少程序停留在交换区中的几率。

二、 Valgrind使用方法

Valgrind的使用非常简单,valgrind命令的格式如下:
valgrind [valgrind-options] your-prog [your-prog options]
一些常用的选项

选项 作用
-h or - -help 显示帮助信息
- -version 显示valgrind内核版本
-q or - -quiet 只输出错误信息
-v or - -verbose 输出更详细的信息
- -tool=[default: memcheck] 运行valgrind中名为toolname的工具。如果省略工具名,默认运行memcheck
- -db-attach= [default: no] 绑定到调试器上,便于调试错误
三、valgrind中callgrind的使用

总结起来讲用callgrind分析代码只需要三步:

  1. 编译程序时最好添加debug符号,便于生成call-graph
  2. 以命令valgrind --tool=callgrind ./programname运行程序生成分析数据文件
  3. 用可视化工具,诸如KCachegrind分析上一步生成的数据文件。

一个可视化后的例子如图,在右下角的视图中可以看到函数间的调用关系和相应的比例

posted @ 2016-05-02 17:57  每天灬进步一点  阅读(494)  评论(0编辑  收藏  举报