硬件基础知识总结报告(3篇)

时间:2025-06-25 18:47:32 admin 今日美文

硬件基础知识总结报告 第1篇

GPU性能排行可以查看GPU天梯榜。

在英伟达产品系列中,有消费领域的GeForce系列,有专业绘图领域的Quadro系列,有高性能计算领域的Tesla系列,如何选择?有论文研究,太高的精度对于深度学习的错误率是没有提升的,而且大部分的环境框架都只支持单精度,所以双精度浮点计算是不必要,Tesla系列都去掉了。从显卡效能的指标看,CUDA核心数要多,GPU频率要快,显存要大,带宽要高。这样,最新Titan X算是价格便宜量又足的选择。

英伟达以其大规模的并行GPU和专用GPU编程框架CUDA主导着当前的深度学习市场。但是越来越多的公司开发出了用于深度学习的加速硬件,比如谷歌的张量处理单元(TPU/Tensor Processing Unit)、英特尔的Xeon Phi Knight‘s Landing,以及高通的神经网络处理器(NNU/Neural Network Processor)。像Teradeep这样的公司现在开始使用FPGA(现场可编程门阵列),因为它们的能效比GPU的高出10倍。 FPGA更灵活、可扩展、并且效能功耗比更高。 但是对FPGA编程需要特定的硬件知识,因此近来也有对软件层面的FPGA编程模型的开发。

硬件基础知识总结报告 第2篇

矩阵相乘(Matrix MulTIplicaTIon)——几乎所有的深度学习模型都包含这一运算,它的计算十分密集。

卷积(ConvoluTIon)——这是另一个常用的运算,占用了模型中大部分的每秒浮点运算(浮点/秒)。

循环层(Recurrent Layers )——模型中的反馈层,并且基本上是前两个运算的组合。

All Reduce——这是一个在优化前对学习到的参数进行传递或解析的运算序列。在跨硬件分布的深度学习网络上执行同步优化时(如AlphaGo的例子),这一操作尤其有效。

硬件基础知识总结报告 第3篇

人工智能的实现需要依赖三个要素:算法是核心,硬件和数据是基础

从产业结构来讲,人工智能生态分为基础、技术、应用三层。

1Flops/s简写为T/s,是数据流量的计数单位,意思是“1万亿次浮点指令每秒”,它是衡量一个电脑计算能力的标准。

1TFlops=1024GFlowps,即1T=1024G。

各种FLOPS的含义: 1) 一个MFLOPS(megaFLOPS)等于每秒1百万(=10^6)次的浮点运算; 2) 一个GFLOPS(gigaFLOPS)等于每秒10亿(=10^9)次的浮点运算; 3) 一个TFLOPS(teraFLOPS)等于每秒1万亿(=10^12)次的浮点运算; 4) 一个PFLOPS(petaFLOPS)等于每秒1千亿(=10^15)次的浮点运算。