摘要: gpu的架构分为streaming multiprocessors每个streamingmultiprocessors(SM)又能分步骤执行很多threads,单个SM内部能同时执行的threads叫做warp。一个warp能同时操作16个单精度浮点数/8个双精度(tesla),或者32个单精度浮点... 阅读全文