距离超越特斯拉，还有X天

发布时间：2022-12-28 19:27 来源: 网络阅读量：11388

两年前，《日经亚洲评论》发表了一篇报道:研究人员在拆解Model3后发现，自动驾驶硬件3.0不仅是自动驾驶系统和多媒体控制单元的核心，也是特斯拉脱离其他竞争对手的关键武器。

高性能的硬件平台是处理海量数据预期增长的基石，也是自动驾驶系统不断完善的技术支撑。事实也证明，特斯拉近年来一直走在自动驾驶队伍的前列。但显然，这只是开胃菜。数据是压轴选手。

自动驾驶系统在发展初期，需要收集大量的道路环境数据，形成贯穿于感知、决策、规划、控制诸多环节的算法。随着自动驾驶水平的进一步发展，场景的长尾会大大增加，数据量会成倍增长。

量产车上市后也是如此。还是要不断的回传场景数据，训练验证算法模型，做进一步的优化迭代。因此，数据被认为是车企发展自动驾驶技术的护城河。截至去年6月，特斯拉已经采集了100万个36帧10秒的高度差异化场景视频数据，累计数据量约1.5PB，远超Waymo。

如何获取、存储和利用更多的海量数据，是向更高层次过渡甚至实现完全无人驾驶L5级自动驾驶的关键，也是越来越多车企将目光投向超级计算中心的根本原因。

真正的主菜没有数据，不智能。

构建自动驾驶系统，数据采集主要有两种模式，一种是采集车预采集，另一种是量产车路测充电。一些计划从事自动驾驶系统开发的公司经常面临两个困难，即难以创建数据收集团队，更难以建立量产车返回团队。

结合IDC和Nvidia发布的白皮书，在实车端采集数据，需要实车配备全套传感器设备在真实场景下连续行驶，通常会导致测试成本较高。

同时，实车路测难以完全覆盖长尾场景；有些场景也很危险，很可能会增加测试成本。另外，仅仅通过实车路试，无疑会拉长RD周期，难以满足目前市场对产品创新周期的需求。一旦数据成为缺失项，自动驾驶就无从谈起。

“长尾场景”是种类多、频率低的场景。

自动驾驶时代，模拟已经成为硬需求。通过数字建模数字化还原现实世界中的物理场景，自动驾驶系统可以在虚拟环境中进行测试并生成数据。

不仅测试速度优于真实物理世界中车辆的水平，还可以在样车组装前测试自动驾驶系统算法。通过预收敛算法的准确性，可以进一步提高实车测试的效率。毫无疑问，一个高效准确的仿真工具尤为重要。

至于为什么需要智能计算中心，如果进行大规模仿真测试，在一定时间内测试多个10亿量级的数据，计算能力将成为仿真效率的瓶颈。但是，计算能力已经不是一两个GPU或者一个小集群就能搭建起来的开发基础了。

随着数据变得越来越复杂和系统化，自动驾驶算法模型的复杂度也在不断增加，模型的体积也在呈几何级数增长。只有依靠成百上千的GPU并行运算，才能在更长的训练周期内完成Transformer等机型的训练，而只有数据中心才能支撑这种需求。

“超级计算中心是算法的基础。如果没有超算中心，自动驾驶卡是没办法打通的。”英伟达汽车数据中心业务总监陈野这样强调。这些要求对数据中心的设计、建设和运维提出了更高的要求。

在造车新势力中，小鹏一马当先，阿里云联合发布了内蒙古乌兰察布智能计算中心“漩涡”。运算能力可达600PFLOPS，可将自动驾驶核心模型的训练速度提升近170倍。蔚来、特斯拉等公司都选择了英伟达提供的解决方案。

其中，蔚来使用英伟达HGX加速器平台来构建数据中心基础设施。在此基础上，型号研发效率提升近20倍，加快ET7、ET5等型号的量产上市速度。HGX集成了NVIDIA GPU、Mellanox等技术，以及在NGC优化的AI软件栈。

特斯拉也使用英伟达GPU来建立自己的超级计算机中心。在英伟达的自动驾驶客户中，特斯拉是最大的GPU用户，已经部署了120个DGX SuperPOD分布式集群。

“DGX”是英伟达最强的服务器，内置8个英伟达GPU。“SuperPOD”是英伟达推出的最小可交付超级计算中心，内部有20个DGX。换句话说，特斯拉用了2400个DGX，近2万个英伟达GPU。

“20台服务器可以做很多初期工作，但对于中国造车新势力来说，20台服务器的数量远远不够。”据陈晔介绍，中国领先的自驾客户需求超过300至600台DGX。

在完成数据采集、筛选、标记后，自动驾驶算法模型训练、回放验证、模拟测试三个环节都离不开超算中心。大型超算中心是企业或自动驾驶公司做好自动驾驶模型培训的必需品。其实这也是汽车企业自建数据中心的底层逻辑。

建超级计算机中心结束了吗？

但是，在开始“量”之前，还有几个问题需要考虑。

建设超算中心不仅与服务器有关，还涉及系统建设，包括GPU集群、存储、高速网络、软件调度、机房管理、数据中心基础设施建设等。每个部分都涉及大量的组件，增加了设计阶段的难度；

此外，部署设备和软件都需要很长时间，在统一和协调的部署和集成方面存在许多挑战。最后，当所有的数据中心设备安装部署完毕后，保持其处于最新鲜的状态和最佳的工作状态也是非常重要的。

此前，市场研究公司Forrester在一份调查报告中指出，超过60%的受访企业认为其数据中心处于L3级别。

本次调查通过对197位大中型企业IT部门领导和技术决策者的访谈发现，云计算、人工智能等技术有助于数据中心网络提高自动化和智能化运维水平，但相关企业在建设和运维阶段仍依赖专家经验和工作人员技能，导致效率低下且容易出错。

以上白皮书还有一点，就是无形成本。企业和Tier1建设智能计算中心的预算一般在1亿元以上，有五分之一超过2亿元。人工智能技术公司和自动驾驶独角兽也有数亿投资者，但这些仅限于前期投资。

开发自动驾驶技术是一项艰巨的任务。以Waymo、Cruise等公司为例。三五年烧掉几十亿是家常便饭。再尴尬一点，一些自动驾驶公司继续烧钱却毫无进展。硬件就是钱，数据就是钱，人才就是钱。

相比自建超算中心，选择合适的供应商或许能事半功倍。为了应对这些挑战，Nvidia可以提供从芯片到数据中心的端到端集成解决方案。

对于SuperPOD超级计算机，它有一个参考架构，支持从小规模快速扩展。可以从20变40，80变1000多，像搭积木一样不停的膨胀。同时具有持续的软件优化和“白盒”交付的特点。这样车企就可以把更多的时间和精力放在算法开发上，而不是数据中心。

至少在现阶段，超算中心之间的竞争不一定是规模和服务器数量。比如效率和开发方式也会决定自动驾驶模型的进度条，这不仅涉及到硬件，还涉及到开发的AI框架、方法、管理平台等等。谁能抓住机会，谁就有望赢得第一场比赛。

NVIDIA会是唯一的答案吗？

从市场以往的发展规律来看，高科技产业的第一梯队会掌握在少数公司手中。随着新技术新兵的不断进入，绝对的寡头垄断格局只会越来越脆弱。

目前，英伟达、英特尔、AMD在数据中心处理器市场几乎100%垄断。就单个GPU计算芯片而言，Nvidia和AMD继续对决，前者占比超过80%。目前自动驾驶算法模型的训练多基于GPU，英伟达通过搭建带GPU的服务器和基于“服务器+网络”的超算中心积极争夺市场。

围绕超级计算中心的战争已经开始，汽车公司和自动驾驶公司如果想赢得头把交椅，就必须迅速采取行动。

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

热门资讯