GTX480-Compute 2.0 capability 

  •  15 core 或者说 SMStreaming Multiprocessors  
  •  每个 SM, 一般有 32 cuda 处理器 
  •  480 cuda 处理器 
  •  ECC global memory 
  •  每个 SM 内的线程按 32 个单位调度执行,称作 warp。每个 SM 内有 2 warp 发射单元 
  •  一个 cuda 核由一个 ALU 和一个 FPU 组成, FPU 是浮点处理单元 

   SIMT SIMD 

 SIMT 是指单指令、多线程 

  •  硬件决定了多个 ALU 之间要共享指令 
  •  通过预测来处理多个线程间的 Diverage(是指同一个 warp 中的指令执行路径产生不同) 
  •  NV 把一个 warp 中执行的指令当作一个 SIMTSIMT 指令指定了一个线程的执行以及分支行为  
  •  SIMD 指令可以得到向量的宽度,这点和 X86 SSE 向量指令比较类似。 SIMD 的执行和管线相关 :  1) 所有的 ALU 执行相同的指令    2) 根据指令可以管线分为不同的阶段。当第一条指令完成的时候( 4 个周期),下条指令开始执行 

 Nvida GPU 内存机制 

 每个 SM 都有 L1 cache,通过配置,它可以支持 shared memory,也可以支持 global memory48 KB Shared / 16 KB
of L1 cache
16 KB Shared / 48 KB of L1 cachework item 之间数据共享通过 shared memory。每个 SM 32K
register bank L2(768K) 支持所有的操作,比如 load,store 等等 Unified path to global for loads and stores. 

NV GPU 内存模型和OpenCl 内存模型对应关系:

Nv GPU 内存模型和 OpenCL 内存模型的对应关系是: 

 shared memory 对应 local memory 

  寄存器对应 private memory 

  显卡上的GDDR 是global memory

 

原文地址:http://www.cnblogs.com/aalan/p/16852823.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性