NVIDIA对AI加速器和RTXAIPC优化GoogleGemmaLLM

导读 NVIDIA最近通过其注入AI的RTXGPU加速了优化行业标准LLM的开发，该公司现在增强了Google的尖端Gemma模型。NVIDIA增强TensorRT-LLM和多种软件...

NVIDIA最近通过其注入AI的RTXGPU加速了优化行业标准LLM的开发，该公司现在增强了Google的尖端Gemma模型。

NVIDIA增强TensorRT-LLM和多种软件资源，利用其AI和RTXGPU提供经济高效的性能

[新闻稿]：NVIDIA与Google合作，今天推出了对Gemma的所有NVIDIAAI平台的优化，Gemma是Google最先进的新型轻量级20亿和70亿参数开放语言模型，可以在任何地方运行，降低成本并加快特定领域用例的创新工作。

两家公司的团队紧密合作，利用NVIDIATensorRT-LLM(一个在NVIDIA上运行时用于优化大型语言模型推理的开源库)加速Gemma的性能(基于用于创建Gemini模型的相同研究和技术而构建)数据中心、云端和配备NVIDIARTXGPU的PC中的GPU。

这使得开发人员能够瞄准全球高性能AIPC中超过1亿个NVIDIARTXGPU的安装基础。

开发人员还可以在云中的NVIDIAGPU上运行Gemma，包括基于H100TensorCoreGPU的GoogleCloudA3实例，以及即将推出的NVIDIAH200TensorCoreGPU(具有141GBHBM3e内存，每秒4.8TB)，Google将部署该GPU年。

企业开发人员还可以利用NVIDIA丰富的工具生态系统(包括带有NeMo框架和TensorRT-LLM的NVIDIAAIEnterprise)来微调Gemma并在其生产应用程序中部署优化的模型。

Gemma来与RTX聊天

ChatwithRTX很快就会增加对Gemma的支持，这是一个NVIDIA技术演示，它使用检索增强生成和TensorRT-LLM软件，为用户在本地、由RTX驱动的WindowsPC上提供生成AI功能。ChatwithRTX让用户可以轻松地将PC上的本地文件连接到大型语言模型，从而利用其数据来个性化聊天机器人。

由于模型在本地运行，因此可以快速提供结果，并且用户数据保留在设备上。ChatwithRTX不依赖基于云的LLM服务，而是让用户在本地PC上处理敏感数据，而无需与第三方共享或具有互联网连接。

[注]：GoogleGemma的优化有一个相当令人兴奋的因素，那就是NVIDIA引入了增强功能，使该模型也对其消费类RTXGPU进行了更优化，这是朝着让开发人员无需依赖即可工作的方向迈出的极好一步。专用AIGPU等高端设备。

这方面在现代引起了争论，因为人们认为，由于不存在足够的库和资源供开发人员使用，制造商正在将“开发”方面转向特定GPU，但NVIDIA似乎正试图让所有人都参与其中在这里，这是一个备受赞赏的步骤。