在介绍选择GPU在服务器的基本原则之前,让我们先介绍一下常见的原则GPU和GPU服务器。
常见的GPU,可分为总线接口类型NV-Link传统总线接口和传统总线接口PCI-e总线三种。
NV-Link接口类型的GPU典型代表是NVIDIA V100,采用SXM2接口,在DGX-2上有SXM3的接口。
NV-Link总线标准的GPU服务器可分为两类,一类是NVIDIA公司设计的DGX另一种是由合作伙伴设计的超级计算机NV-Link接口服务器。DGX超级计算机不仅提供硬件,还提供相关软件和服务。
传统总线接口GPU,这些产品目前是主流产品,如使用PCI-e接口的V100、 P40(P开头是指上一代PASCAL架构)和P4.以及最新的图灵架构T4.其中比较薄,只占一个槽位P4和T4,通常用于Inference,还有成熟的推理和识别模型。
传统PCI-e总线的GPU服务器也分为两类,一类是OEM曙光、浪潮、华为等其他国际品牌的服务器;另一个是非OEM服务器种类繁多。
在选择服务器时,除了分类外,还应考虑性能指标,如精度、存储类型、存储容量和功耗。同时,一些服务器需要水冷、降噪或对温度和移动性有特殊要求。
选择GPU在选择合适的服务器时,首先要考虑业务需求GPU型号。在HPC还需要根据精度选择高性能计算。例如,一些高性能计算需要双精度。此时,如果使用P40或者P4不合适,只能用V100或者P100;同时,对存储容量也有要求。例如,石油或石化勘探的计算应用对存储很高的要求;有些对总线标准有要求,所以选择GPU模型首先要看业务需求。
GPU服务器人工智能领域也有很多应用!
在教学场景中,是的GPU虚拟化的要求相对较高。根据课堂数量,教师可能需要GPU虚拟服务器30甚至60个虚拟服务器GPU,因此批量Training对GPU要求高,一般使用V100做GPU训练。模型训练后需要推理,所以推理一般用P4或者T4.也会使用少数情况V100。
当GPU选择型号后,考虑使用什么GPU此时,我们需要考虑以下情况:
首先,边缘服务器需要根据数量进行选择T4或者P4.对于相应的服务器,还应考虑服务器的使用场景,如火车站卡口、机场卡口或卡口;在中心端做Inference时可能需要V服务器需要考虑吞吐量、使用场景、数量等。
第二,需要考虑客户自己的用户群和IT运维能力,对BAT来说,他们自己的经营能力相对较强,这次会选择一般的PCI-e还有一些服务器IT对于操作和维护能力较弱的客户,他们更注重数字和数据标记。我们称为数据科学家,选择GPU服务器的标准也会有所不同。
三是考虑配套软件和服务的价值。
第四,要考虑整体GPU像DGX这种GPU从底部的操作系统驱动的综合超级计算机非常成熟Docker其它部分已固定优化,效率高。
中科云达DGX-1
轻松取得工作成果
今天的深度学习环境在软件设计上花费了数十万美元的时间,而开源软件需要几个月的时间才能稳定下来。在 的帮助下NVIDIA DGX-1.可立即提高效率,简化工作流程,与团队合作。NVIDIA 随时更新的优化软件解决方案可以节省您的时间和金钱。
革命性的 AI 性能
尽管许多解决方案都提供 GPU 加速性能,但只有 NVIDIA DGX-最新发挥了1 NVIDIA? Tesla? V所有的潜力,包括下一代 NVIDIA NVLink? 和 Tensor 核心结构。与其他 相比GPU 的系统,DGX-1 凭借 NVIDIA GPU Cloud 深度学习软件堆栈和流行的技术框架将训练速度提高三倍。
投资保护
利用 NVIDIA 所有深入学习专业知识的力量都支持你的项目,所以你不需要浪费时间和金钱来获得预期的结果。NVIDIA 企业支持使您不需要花时间调查硬件和开源软件。节省调试和优化时间,增加更多时间专注于探索和发现。
通往深度学习的更快路径
不仅仅是服务器和 GPU。在企业环境中实施AI 复杂的软件和硬件需要仔细选择和集成。NVIDIA DGX-1? 用解决方案加快你的计划,这样你就可以在几个小时内得到意见,而不是几周或几个月。