NVIDIA最近通过其注入AI的RTXGPU加速了优化行业标准LLM的开发,该公司现在增强了Google的尖端Gemma模型。
NVIDIA增强TensorRT-LLM和多种软件资源,利用其AI和RTXGPU提供经济高效的性能
[新闻稿]:NVIDIA与Google合作,今天推出了对Gemma的所有NVIDIAAI平台的优化,Gemma是Google最先进的新型轻量级20亿和70亿参数开放语言模型,可以在任何地方运行,降低成本并加快特定领域用例的创新工作。
两家公司的团队紧密合作,利用NVIDIATensorRT-LLM(一个在NVIDIA上运行时用于优化大型语言模型推理的开源库)加速Gemma的性能(基于用于创建Gemini模型的相同研究和技术而构建)数据中心、云端和配备NVIDIARTXGPU的PC中的GPU。
这使得开发人员能够瞄准全球高性能AIPC中超过1亿个NVIDIARTXGPU的安装基础。
开发人员还可以在云中的NVIDIAGPU上运行Gemma,包括基于H100TensorCoreGPU的GoogleCloudA3实例,以及即将推出的NVIDIAH200TensorCoreGPU(具有141GBHBM3e内存,每秒4.8TB),Google将部署该GPU年。
企业开发人员还可以利用NVIDIA丰富的工具生态系统(包括带有NeMo框架和TensorRT-LLM的NVIDIAAIEnterprise)来微调Gemma并在其生产应用程序中部署优化的模型。
Gemma来与RTX聊天
ChatwithRTX很快就会增加对Gemma的支持,这是一个NVIDIA技术演示,它使用检索增强生成和TensorRT-LLM软件,为用户在本地、由RTX驱动的WindowsPC上提供生成AI功能。ChatwithRTX让用户可以轻松地将PC上的本地文件连接到大型语言模型,从而利用其数据来个性化聊天机器人。
由于模型在本地运行,因此可以快速提供结果,并且用户数据保留在设备上。ChatwithRTX不依赖基于云的LLM服务,而是让用户在本地PC上处理敏感数据,而无需与第三方共享或具有互联网连接。
[注]:GoogleGemma的优化有一个相当令人兴奋的因素,那就是NVIDIA引入了增强功能,使该模型也对其消费类RTXGPU进行了更优化,这是朝着让开发人员无需依赖即可工作的方向迈出的极好一步。专用AIGPU等高端设备。
这方面在现代引起了争论,因为人们认为,由于不存在足够的库和资源供开发人员使用,制造商正在将“开发”方面转向特定GPU,但NVIDIA似乎正试图让所有人都参与其中在这里,这是一个备受赞赏的步骤。