硬件基础知识总结报告 第1篇
GPU性能排行可以查看GPU天梯榜。
在英伟达产品系列中,有消费领域的GeForce系列,有专业绘图领域的Quadro系列,有高性能计算领域的Tesla系列,如何选择?有论文研究,太高的精度对于深度学习的错误率是没有提升的,而且大部分的环境框架都只支持单精度
,所以双精度浮点计算是不必要,Tesla系列都去掉了。从显卡效能的指标看,CUDA核心数要多,GPU频率要快,显存要大,带宽要高
。这样,最新Titan X算是价格便宜量又足的选择。
英伟达以其大规模的并行GPU和专用GPU编程框架CUDA主导着当前的深度学习市场。但是越来越多的公司开发出了用于深度学习的加速硬件,比如谷歌的张量处理单元(TPU/Tensor Processing Unit)、英特尔的Xeon Phi Knight‘s Landing,以及高通的神经网络处理器(NNU/Neural Network Processor)。像Teradeep这样的公司现在开始使用FPGA(现场可编程门阵列)
,因为它们的能效比GPU的高出10倍。 FPGA更灵活、可扩展、并且效能功耗比更高。 但是对FPGA编程需要特定的硬件知识,因此近来也有对软件层面的FPGA编程模型的开发。
硬件基础知识总结报告 第2篇
矩阵相乘(Matrix MulTIplicaTIon)——几乎所有的深度学习模型都包含这一运算,它的计算十分密集。
卷积(ConvoluTIon)——这是另一个常用的运算,占用了模型中大部分的每秒浮点运算(浮点/秒)。
循环层(Recurrent Layers )——模型中的反馈层,并且基本上是前两个运算的组合。
All Reduce——这是一个在优化前对学习到的参数进行传递或解析的运算序列。在跨硬件分布的深度学习网络上执行同步优化时(如AlphaGo的例子),这一操作尤其有效。
硬件基础知识总结报告 第3篇
人工智能的实现需要依赖三个要素:算法是核心,硬件和数据是基础
。
从产业结构来讲,人工智能生态分为基础、技术、应用三层。
1Flops/s简写为T/s,是数据流量的计数单位,意思是“1万亿次浮点指令每秒”,它是衡量一个电脑计算能力的标准。
1TFlops=1024GFlowps,即1T=1024G。
各种FLOPS的含义: 1) 一个MFLOPS(megaFLOPS)等于每秒1百万(=10^6)次的浮点运算; 2) 一个GFLOPS(gigaFLOPS)等于每秒10亿(=10^9)次的浮点运算; 3) 一个TFLOPS(teraFLOPS)等于每秒1万亿(=10^12)次的浮点运算; 4) 一个PFLOPS(petaFLOPS)等于每秒1千亿(=10^15)次的浮点运算。