问题:
web服务器w3wp CPU占用率非常高,导致整个服务器CPU 100%占用,问题无法正常重现
解决方法:
--问题尚未解决,此处记录目前的解决状态
1)下载windbg
参考https://blog.csdn.net/johnsonblog/article/details/8165861
最终的下载地址:
http://download.microsoft.com/download/A/6/A/A6AC035D-DA3F-4F0C-ADA4-37C8E5D34E3D/setup/WinSDKDebuggingTools_amd64/dbg_amd64.msi
这个版本无法自动下载调试符号,再win10上可以直接安装 Windbg Preview: https://www.microsoft.com/zh-cn/p/windbg-preview/9pgjgd53tn86#activetab=pivot:overviewtab
2)将windlb安装在服务器(本地也可以),内存转储文件可能很大(G级别),推荐直接安装在服务器,避免复制dmp文件
默认目录为:C:\Program Files\Debugging Tools for Windows (x64)
3)创建进程转储问题,找到cpu占用最高的w3wp,右键,创建转储文件,若成功,则会提示转储文件的地址,一般放在C:\Users\Administrator\AppData\Local\Temp\X
4) 用windbg打开转储文件分析,打开的菜单为Fille->Open Crash Dump 或者按Ctrl + D
5) 输入命令分析,找到正在执行的代码
参考:https://improve.dk/debugging-in-production-part-1-analyzing-100-cpu-usage-using-windbg/
概要:
在打开的窗口下面的输入框中依次输入:
加载dotNet分析工具: !loadby sos clr
查到正在运行的线程: !runaway
运行这个命令后,找到执行时间最长的线程,一般是第一个,找到线程的id
-----
:000> !runaway User Mode Time Thread Time 21:1e78 0 days 1:18:51.843 22:1ff8 0 days 1:14:28.562 9:1a98 0 days 0:05:40.046 10:1f74 0 days 0:05:18.703 30:1ff0 0 days 0:00:25.859
-----
选择线程,输入:~Xs 将X换成线程Id, 如 ~21s
加载线程的调用堆栈:!CLRStack
现在可以看到代码了。
---
服务器dump了一个,CLRStatck的时候报错:
PDB symbol for clr.dll not loaded,查看资料是 mscordacwks.dll版本不匹配,研究了半天,没搞定
https://github.com/Microsoft/WinObjC/wiki/Debugging-Stack-Traces-from-Crash-Dumps
最后,安装了Windbg Preview(直接在win10市场中安装),用其打开dump文件,输入几个命令后,它自己下载了符号文件,命令终于可以运行了。
Windbg Preview安装: https://www.microsoft.com/zh-cn/p/windbg-preview/9pgjgd53tn86#activetab=pivot:overviewtab
最终发现问题是老代码有个地方用到了静态的Dictionary<>,Dictionary<>不是线程安全的,不应该作为静态字段用在web程序中。
000000397797d7c0 00007ffdabdb8d2e System.Collections.Generic.Dictionary`2[[System.__Canon, mscorlib],[System.__Canon, mscorlib]].FindEntry(System.__Canon) 000000397797d830 00007ffd519cca81 ModelBLL.GetModel(System.String)