开发那些事儿:EasyNTS上云网关平台内存泄露是什么原因?如何解决?
EasyNTS上云网关包含组网运维、多协议视频流拉转推等功能,它可以解决内网设备上云、内网业务上云、直播上云、运维上云等上云需求,通过端口穿透技术,可以将内网的任何网络设备,以IP+端口的形式发布到云端,让处于内网的设备成为一个“云设备”,帮助企业打造“虚拟云主机”。
有用户反馈,EasyNTS运行pprof一段时间后,内存持续增长。运行30个小时后,从启动时的1.2%飙升到33%,并在2周时间左右系统因内存而崩溃。我们对此情况立刻进行了排查与分析。
1)查看pprof,发现了几个占用内存较大的函数。
StatisticalFlow函数是用于统计流量输入输出的,每30秒执行一次,其中嵌套了多级for循环。每个循环里面还嵌套了网络请求及defer Body.CLose() 。
defer表示函数结束后执行,for循环表示函数永远不会结束,这就导致每30秒都有一定量的defer压入函数栈帧中,无限增大,无法释放。当函数栈不够用时,又去申请更大的内存空间,将旧的数据拷贝过去,并且一直重复这个过程。
从代码结构上来看也极其糟糕,在for循环里面嵌套了多个for循环,层级就有4级,如下图所示:
再看另外一个函数,记录设备下线日志,此处每个客户端会创建至少一个协程,并在for循环里每15秒创建一个无法回收的定时器。
在加载配置中,右侧调用可以看到有非常多的调用,每次调用都要重新加载配置。因为返回的是指针,会逃逸到堆上,直到垃圾回收才清理。
以上分析结果均是导致用户EasyNTS内存泄露的原因。根据以上分析,可通过以下办法解决内存问题:
1)删除defer,在资源使用完毕后立即关闭;
2)定时器创建在for循环外面;
3)重构函数,每个函数尽量不要超过60行;
4)配置相关使用单例模式。
EasyNTS上云网关可应用在多种场景中,如远程办公、在线课堂、虚拟直播等,当然也可以进行各种上云服务,如果大家还想了解更多相关内容,欢迎持续关注我们的更新,也欢迎大家联系我们探讨更多内容。