让加速计算更加精彩 NVIDIA GTC China 2019的别样精彩

至顶网计算频道 12月23日新闻消息（文/李祥敬）：2019年12月18日，一年一度的nvidia gtc china 2019在苏州举行。作为重头戏，nvidia创始人兼ceo黄仁勋的不插电主题演讲是大会的重要看点。
因为笔者参加了今年3月份在美国举行的nvidia gtc 2019，所以在演讲开始之前，其实我并没有太大的期待。但是在黄仁勋将近两个半小时的演讲下来，我发现了nvidia gtc china 2019的别样精彩。
在开场中，黄仁勋表示，加速计算在不断向前推进，而这是nvidia一直致力于打造并领先20年的领域。
今年的gtc大会共有六千多名参与者，三年增长了250%。大会关注的话题也涉及了人工智能、数据科学、边缘计算、汽车、自主机器、游戏、5g、设计、金融、高性能计算、医疗、生命科学、图像、虚拟化、人工智能框架、工业应用等等。总之，计算正在革新各行各业。
在黄仁勋看来，加速计算首先要有一个好的芯片，这是基石。nvidia gpu仅仅是一个开始。“加速计算是一个全堆栈的技术，为了可以充分利用该技术，我们必须要重新做各种各样的工程，从设计、算法一直到系统软件、工具、应用。”
这也就是意味着，nvidia在打造一个gpu计算的生态系统。黄仁勋说，nvidia是一个系统架构公司，拥有统一、开放、可靠的架构，可以让开发者在此基础上去开发软件。“我们一直致力于打造一个统一的cuda。无论是游戏、自动驾驶、云、超级计算、台式机、笔记本、嵌入式系统，每一个gpu使用一个统一的架构，兼容性非常强。开发者可以自己优化软件堆栈。我们让超过2亿人从中获益，在全世界已经有超过150名的cuda开发者，cuda每年的下载量还在增长，这非常令人兴奋。很明显，我们现在已经到了一个转折点，这个架构仍然会延续下去，通过开发者基于该架构的软件优化，我们的架构也不断改善。”
在cuda平台之上，nvidia提供了有非常强大的算法和库，数量超过了500。借助这些软件，你无需改变硬件，通过在软件和库上的完善就可以让计算机整体性能提升4倍。在推理方面，无需改变gpu，整个堆栈的软件就可以使性能提升2倍。“我们不断完善软件的性能，一直坚持统一架构的原则使得我们走到现在。所以我要感谢所有开发者与nvidia紧密合作，帮助我们不断完善软件堆栈。”黄仁勋如是说。
三大领域更新黄仁勋在演讲中系统介绍了nvidia在计算机图形、高性能计算以及人工智能三个重大领域的创新。
首先在计算机图形方面，去年nvidia重新创造了未来计算机图形的技术——实时光线追踪，也就是nvidia geforce rtx。rtx可以用更为自然的方式模拟光线、反射等，让现代计算机图形技术变得更加有魅力。rtx可以在未来重新定义计算机图形。
比如目前最火的游戏《我的世界》采用nvidia rtx，实际上在中国很多开发者也打造了非常精美的游戏。
黄仁勋还宣布，腾讯将推出由nvidia赋能的start云游戏服务，将游戏体验延展到所有性能普通的电脑之上。同时，世界顶级的三个主流平台autodesk arnold、chaos group v-ray 和 blender cycles都实现了对nvidia rtx技术的支持。
此外，nvida还推出了云端omniverse开放式设计协作平台，并增加了对建筑行业的支持。
除了软件，nvidia还更新了max-q和nvidia rtx studio，从配备 geforce rtx 2060的轻薄max-q笔记本一直到配备4路sli quadro rtx 8000的工作站和配备8路rtx 8000的服务器，构建了一个全线的硬件支持。
在高性能计算领域，黄仁勋介绍了nvidia与nasa模拟火星登陆器、华大基因测序等内容。
此外，nvidia cuda还实现了对arm架构的支持。黄仁勋认为，cuda本身拥有一个诸多开发人员构成的庞大生态系统，当nvidia支持arm的时候，这些开发人员也开始支持arm。“我们是要打造一个能够获得永久支持的可编程的架构，这也就意味着你现在开发的这个软件现在可以运行，十年之后也可以使用。在每一个国家，每一个云，每一个计算机以及每一种配置之上你都可以使用nvidia的架构。”
在人工智能领域，黄仁勋表示，大数据、深度学习和nvidia gpu推动了现代ai的发展。“在5年当中，我们也在加快深度学习，使得5年时间学习速度加快了300倍。我们可以训练大型的模型，并在各个层面做出创新。这样深度学习的研究者可以进一步探索科学的边界。”
过去，计算都是以平稳速度发展的，不过深度学习使计算速度发生了变化，并且计算机可以自己演进，自己基于大数据进行学习，计算机速度大幅度提升，计算机工作负载快速增加。
基于此，nvidia推出了多样化的产品，比如dgx是训练加速器，hgx用于云端推理，egx用于边缘。通过这些将ai的力量释放出去。
需要指出的是nvidia egx边缘计算平台由一个云原生软件堆栈和一系列边缘服务器所组成，这些边缘服务器经过优化，可以运行该堆栈。egx系统可以从nvidia jetson支持的边缘设备扩展至经过ngc-ready for edge验证的服务器。使用nvidia egx，系统管理员可以轻松且安全地远程设置一组边缘服务器，以实现更快、更轻松的部署。现在egx已经被运营商运用在5g、ai、游戏和vr等业务中。
推荐系统是互联网的引擎，百度和阿里都使用了nvidia的gpu加速计算技术。深度学习推理对深度推荐系统是非常适用的，因此nvidia打造了tensorrt。
黄仁勋宣布了tensorrt 7，除了支持cnn，tensorrt 7也支持rnn、transformer，所有的这些都是自动实现的。nvidia tensorrt 7作为nvidia第七代推理软件开发套件，为实现更加智能的ai人机交互打开了新大门，从而能够实现与语音代理、聊天机器人和推荐引擎等应用进行实时互动。
黄仁勋表示，机器人是一种特别的计算方式，主要做三个事情——感知、推理、规划，这个循环是持续的，nvidia的这个系统叫jetson。而且，nvidia还推出了不同的软件堆栈，比如针对自动驾驶的drive、面向医疗设备的clara、针对机器人的isaac等。
nvidia全新版本isaac软件开发套件（sdk）为机器人提供更新的ai感知和仿真功能。全新isaac sdk可以大大加快研究人员、开发人员、初创企业和制造商开发和测试机器人的速度。它使机器人能够通过仿真获得由人工智能技术驱动的感知和训练功能，从而可以在各种环境和情况下对机器人进行测试和验证。
此外，nvidia推出了“预训练模型”，合作伙伴可以使用drive预训练模型，并使用迁移学习工具来适配个性化的配置。nvidia还不断地通过tensorrt优化预训练数据。在这中间，nvidia使用了drive联邦学习，无需移动数据即可进行训练模型。
黄仁勋说，现在ai面临的一个问题是数据隐私，而联邦学习可以用于自动驾驶和医疗影像等领域。nvidia提供了很多预训练模型。你可以通过ngc下载这个模型，然后根据自己的数据进行适配。
针对自动驾驶，nvidia发布了下一代机器人处理器agx orin。orin系统级芯片集成了nvidia新一代gpu架构和arm hercules cpu内核以及全新深度学习和计算机视觉加速器，每秒可运行200万亿次计算，几乎是nvidia上一代xavier系统级芯片性能的7倍。
从以上种种发布和宣布，我们看到nvidia正在将gpu带到各个领域，并且通过软硬结合的方式进行优化，从而推动各行各业的转型升级。
结语谈及nvidia，大家习惯于将其与ai联系起来。但是在黄仁勋看来，人工智能市场本身的体量是非常大，在注解人工智能芯片的时候，我们不应该说人工智能加速，而是人工智能计算。
gpu架构是通用可编程的，可以承载各种应用，这意味其成本可负担性来说是非常好的。同时，nvidia也与产业界保持紧密合作，比如mellanox、思科等加速创新速度。“加速计算为我们带来了新的市场，它需要新的能力，nvidia不断创新架构，同时布局软件，为市场提供新的解决方案。”黄仁勋最后说。
作者：李祥敬

让加速计算更加精彩 NVIDIA GTC China 2019的别样精彩

VIP推荐