sse4加入了6条浮点型点积运算指令,支持单精度、双精度浮点运算及浮点产生操作,且ieee 754指令 (nearest, -inf, +inf, and truncate) 可立即转换其路径模式,大大减少延误,这些改变将对游戏及 3d 内容制作应用有重要意义。此外,sse4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64bit而非8bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升 sse4指令集让45nm penryn处理器增加了2个不同的32bit向量整数乘法运算单元,并加入8位无符号(unsigned)最小值及最大值运算,以及16bit及32bit有符号 (signed) 运算。在面对支持sse4指令集的软件时,可以有效的改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,sse4改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化 据了解,在进行视频编码时需要进行动态预测(motion estimation)及差分编码方式去除相邻2张影像之相关性,这是一个非常复杂的运算动作。在没有sse4指令集时,完成一个步骤需要以下指令语句。
posted on 2010-01-04 00:27  康的瑞  阅读(667)  评论(0编辑  收藏  举报