网站首页 > 技术文章 正文
如何使用 PyTriton 在 Python 中部署 AI 模型
AI 模型无处不在,以聊天机器人、分类和摘要工具、用于分割和检测的图像模型、推荐模型等形式出现。AI 机器学习 (ML) 模型有助于实现许多业务流程的自动化,从数据中生成见解,并提供新的体验。
Python 是 AI/ML 开发中最流行的语言之一。在这篇文章中,您将学习如何使用NVIDIA Triton Inference Server 通过新的 PyTriton 接口在 Python 代码和环境中提供模型服务。
更具体地说,您将学习如何在 Python 开发环境中使用生产类工具对AI模型进行原型化和测试推理,以及如何使用 PyTriton 接口进行生产。您还将了解与 FastAPI 或 Flask 等通用 web 框架相比,使用 PyTriton 的优势。这篇文章包括几个代码示例,以说明如何激活高性能批处理、预处理和多节点推理;并实施在线学习。
通过减少指令缓存丢失提高 GPU 性能
GPU 是专门为高速处理大量数据而设计的。它们拥有大量的计算资源,称为流式多处理器 (SMs),以及一系列的设施来为它们提供数据:高带宽到内存、相当大的数据缓存,以及在活动团队数据耗尽时切换到其他工作团队 (warps) 而无需任何开销的能力。
然而,数据饥饿仍然可能发生,许多代码优化都集中在这个问题上。在某些情况下,SM 缺少的不是数据,而是指令。这篇文章介绍了一个由于指令缓存丢失而导致 GPU 工作负载变慢的调查。它描述了如何识别这个瓶颈,以及消除它以提高性能的技术。
认识到问题
这项研究的起源是基因组学领域的一个应用,其中需要解决将 DNA 样本的小片段与参考基因组比对的许多小而独立的问题。背景是众所周知的 Smith-Waterman 算法 (但这本身对讨论并不重要)。
在功能强大的 NVIDIA H100 Hopper GPU 的中型数据集上运行该程序,具有114 个 SM,显示出良好的前景。NVIDIA Nsight Compute (NCU) 工具可以分析一个程序在 GPU 上的执行情况,它证实了 SM 在进行有用的计算时非常忙,但有一个障碍。
构成整体工作负载的许多小问题 (每个问题由自己的线程处理) 可以同时在 GPU 上运行,因此并非所有的计算资源都一直被充分利用。这表示为一个小而非整数的波。GPU 的工作被划分为称为线程块的块,一个或多个可以驻留在 SM 上。如果一些 SM 收到的线程块比其他 SM 少,那么它们将耗尽工作,并且在其他 SM 继续工作时必须空闲。
用线程块完全填充所有 SM 构成一个波。NCU 尽职尽责地报告每个 SM 的波数。如果这个数字恰好是 100.5,这意味着并非所有的 SM 都有相同的工作量要做,并且有些 SM 被迫空闲。但分布不均的影响并不大。大多数情况下,SM上的负载是平衡的。例如,如果波的数量只有 0.5,情况就会改变。在更大比例的时间里,SM 经历了不均匀的工作分配,这被称为 “尾部” 效应。
*本文转载自 NVIDIA英伟达
*与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。
猜你喜欢
- 2025-07-03 从零开始学python爬虫(七):selenium自动化测试框架的介绍
- 2025-07-03 二十七、Python嵌套函数-装饰器模式实现原理
- 2025-07-03 在ubuntu环境下部署svn可视化管理工具iF.SVNAdmin详细教程
- 2025-07-03 Python ROS2 部署 兼容ROS1(ros publisher python)
- 2025-07-03 Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
- 2025-07-03 【Python大语言模型系列】阿里云人工智能平台部署ChatGLM2-6B
- 2025-07-03 干货 | 一步步部署 Flask 应用(flask部署到服务器)
- 2025-07-03 如何将Python算法模型注册成Spark UDF函数实现全景模型部署
- 2025-07-03 简直不要太简单!用宝塔面板轻松部署 Python Web 应用
- 2025-07-03 Python项目源码加密部署方案(python的项目源码)
- 274℃Python短文,Python中的嵌套条件语句(六)
- 272℃python笔记:for循环嵌套。end=""的作用,图形打印
- 270℃PythonNet:实现Python与.Net代码相互调用!
- 265℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 265℃Python实现字符串小写转大写并写入文件
- 124℃原来2025是完美的平方年,一起探索六种平方的算吧
- 105℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 103℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 最近发表
-
- Python错误:IndentationError (缩进错误)
- 字符串对齐的常用方法(对字符串的常用处理方法)
- Python轻松实现markdown转网页,完美支持mermaid图表、latex公式
- Python循环语句(python循环语句分为哪两种)
- 编程小白学做题:Python 的经典编程题及详解,附代码和注释(六)
- Python入门到脱坑经典案—数字金字塔
- Python输出语句print()(python语句print(type(1j))的输出结果)
- Python入门到脱坑经典案例—九九乘法表
- Python格式化:让数据输出更优雅(Python格式化输出代码)
- 一节课的时间快速掌握Python基础知识
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)