在超擎AI Engine实践通过NVIDIA VIA 进行高效视觉 AI 处理

新闻中心

洞悉超擎数智品牌力与AI变革

在超擎AI Engine实践通过NVIDIA VIA 进行高效视觉 AI 处理

时间：2024-11-14

来源：超擎数智

阅读量：500

传统视频分析应用程序及其开发工作流程通常建立在固定功能、有限的模型上，这些模型旨在检测和识别仅一组预定义的对象。借助生成式 AI、NVIDIA NIM 和基础模型，您现在可以使用更少的模型构建具有广泛感知和丰富上下文理解的应用程序。

视觉语言模型 (VLM) 是一类新的生成式 AI 模型，它为能够理解自然语言提示并执行视觉问答的视觉 AI 代理提供支持。通过结合 VLM、LLM 和RAG 技术，您可以构建一个能够理解长篇视频的强大视觉 AI Agent。这些视觉 AI 代理将部署在工厂、仓库、零售店、机场、交通路口等各个地方。它们将帮助运营团队利用从自然互动中产生的更丰富的见解做出更好的决策。

超擎AI Engine人工智能开发平台是一个开放高效的 AI 开发与部署平台，提供从数据处理、模型开发、训练到部署的全流程支持。平台集成了多种深度学习框架和容器管理工具，通过智能资源调度和可视化界面，帮助用户高效利用计算资源，简化模型部署流程。借助对 NVAIE 的兼容性和灵活集成能力，超擎AI平台为企业提供了强大的 AI 开发和推理环境，助力各行业加速智能化转型。

在这篇文章中，我们将向您展示如何在超擎AI服务器上通过超擎AI Engine人工智能开发平台使用 NVIDIA VIA构建用于理解长篇视频的 AI Agent。

一、NVIDIA VIA

NVIDIA VI（Visual AI Agents）是NVIDIA Metropolis微服务架构的扩展，针对视觉AI应用进行了深度优化。其设计宗旨在于为开发者提供易于集成、易于扩展的工具，使视觉语言模型（VLM）驱动的AI代理能够高效处理视频流和图像内容。VIA微服务结合了视觉语言模型（VLM）和NVIDIA NIM的技术优势。VLM允许AI系统基于视频内容理解自然语言指令，并做出相应反应，例如回答用户的视觉问题、生成视频描述等。NIM 则提供了容器化的 GPU 加速推理服务，支持预训练和自定义 AI 模型的部署，提供行业标准 API，简化了 AI 应用的开发和部署流程。

1. 模块化设计：

NVIDIA VIA 采用模块化的容器架构，每个服务独立运行，减少了服务之间的耦合。这种设计使得 VIA 在扩展、维护、更新时更具灵活性，开发人员可以根据需求自由添加或删除某些功能模块，降低了系统复杂度。通过与 NVIDIA NIM 集成，开发者可以利用 NIM 提供的预训练和自定义 AI 模型微服务，进一步增强 VIA 的功能。例如，使用 NIM 的语音和翻译微服务，可以为 VIA 添加多语言支持，提升用户体验。

2. REST API 支持：

VIA 提供了丰富的 REST API 接口，使其能够轻松集成到现有的系统架构中。这些接口支持跨平台访问，使开发者可以在不同操作环境下调用 VIA 进行视频流处理、实时监控等操作，极大地提升了系统兼容性。通过与 NIM 的集成，开发者可以利用 NIM 提供的行业标准 API，将 VIA 与其他 AI 应用程序、开发框架和工作流程无缝连接，构建更强大的视觉 AI 解决方案。

3. 云原生架构：

VIA 完全基于云原生设计，支持在本地服务器或云环境中灵活部署。这意味着企业不仅可以在自己的 GPU 服务器上运行 VIA ，还可以将其部署在公有云或私有云中，以应对不同规模的计算需求，充分利用弹性计算资源。通过与 NIM 的集成，开发者可以在云端或本地环境中部署 NIM ，为VIA提供预训练或自定义的 AI 模型推理服务，满足不同的业务需求。

二、在超擎AI服务器部署NVIDIA VIA

服务器：超擎数智擎天系列AI服务器

软件平台：超擎AI Engine+NVAIE

通过超擎AI Engine，NVAIE用户可以直接从NGC下载相关的模型或容器并在本地部署您所需的相关服务。

VIA使用NVIDIA VITA-2.0进行视觉处理，搭配使用Llama 3 70b Instruct的NIM服务进行语言信息处理以及对RAG或是Guardrails服务的支持。

VIA支持通过基于Gradio搭建的webUI进行操作。在网页中可以使用本地上传或是通过RTSP拉流对视频进行处理。同时提供后端接口，支持开发者将 VIA 功能集成到其他系统或应用中。

在下面的示例中将展示在web界面中通过RTSP拉取视频后进行视频内容分析

借助超擎数智擎天系列AI服务器的强大算力带来的卓越推理性能表现，我们能够在擎天系列AI 服务器上高效部署 NVIDIA VIA，实现更快速的视觉 AI 分析与处理，为各类复杂应用场景提供强大的支持。在 NVAIE 与 NIM 的全面性和灵活性支持下，企业能够轻松实现高效的视频内容分析与深度学习推理。这一组合不仅为 AI 应用的开发、部署提供了强大助力，还确保了系统在多样化场景下的高效运行和稳定性。

超擎 AI Engine 平台进一步提升了整个流程的便捷性，使得 NVAIE 用户可以直接从 NGC 下载所需模型或容器并快速部署服务。通过这一平台，开发者能够在最少的配置和管理成本下实现最大化的计算效能，为各种应用场景提供了强大支持和灵活适配能力。

NVAIE、超擎 AI 服务器和超擎 AI Engine 的协同配合，为企业在 AI 领域的创新应用提固、灵活的基础架构和服务支持，使得复杂的视觉 AI 应用在高效环境中得到全面优化，助力企业获取更深层次的业务洞察与决策支持。