关于用CUDA优化三层反传神经网络算法

把bp算法改写成了CUDA代码,用卡内基梅隆大学的人脸识别图片套尝试了一下人脸识别,对比cpu的速度其实是下降了一倍左右。

原因是这个图像处理只需要用到3个隐藏神经元,缺需要12000个输入神经元。数据copy和运算量的对比才刚达到1比3,根本没用上cuda的优势。

把隐藏神经元数量增加到30个之后,优势就非常明显地体现出来了。cpu算法消耗的时间成倍上涨,而cuda基本不怎么涨。但是也是存在问题的,当隐藏神经元数量进一步上涨之后,cpu算法也就是更慢而已,但是cuda则直接驱动程序失去响应导致程序退出屏幕黑屏了,鲁棒性非常差。

总体来说cuda在神经网络算法上较难体现巨大优势,下次还是用openmp来试试。不过这种多线程编程实在是太累人,一个非常简单短小的cpu程序要经过好几个步骤才能搞成多线程程序,最后收益却并不是特别明显。下次隐藏神经元多的时候再体验一下。

posted on   hyperddr  阅读(606)  评论(2编辑  收藏  举报

编辑推荐:
· 理解Rust引用及其生命周期标识(下)
· 从二进制到误差:逐行拆解C语言浮点运算中的4008175468544之谜
· .NET制作智能桌面机器人:结合BotSharp智能体框架开发语音交互
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
阅读排行:
· 2025成都.NET开发者Connect圆满结束
· Ollama本地部署大模型总结
· langchain0.3教程:从0到1打造一个智能聊天机器人
· 在 VS Code 中,一键安装 MCP Server!
· 用一种新的分类方法梳理设计模式的脉络

导航

< 2011年10月 >
25 26 27 28 29 30 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示