免费开源
AI算力平台

产品简介
GPUStack 是一款面向企业与开发者的开源 GPU 集群管理平台,致力于把分散在笔记本、台式机、服务器上的 NVIDIA、AMD、Apple Silicon、Ascend 等异构 GPU 资源整合为统一的算力池,并以“LLM-as-a-Service”形式对外提供大模型推理服务。它屏蔽了 Kubernetes、驱动、调度、负载均衡、故障恢复等底层复杂度,管理员可通过 Web UI 一键部署来自 Hugging Face、ModelScope 或本地路径的 LLM、VLM、Embedding、Rerank、图像、语音等多模态模型;开发者则像调用 OpenAI API 一样,使用标准 HTTP 或 SDK 即可访问私有大模型,实现 RAG、Agent、Copilot 等生成式 AI 应用。GPUStack 支持单节点到多节点分布式推理、自动故障重启、资源监控、用量计量、RBAC 权限控制,可在 macOS、Windows、Linux 上离线或在线运行,帮助组织在本地、机房或混合云环境中快速落地安全可控的大模型服务。
主要功能
- 异构 GPU 统一纳管:自动发现并聚合 NVIDIA、AMD、Apple、Ascend 等多品牌 GPU 资源,实现跨平台算力池化。
- 多推理引擎兼容:内置 vLLM、llama-box、MindIE、vox-box 等后端,可按模型需求动态选择或并行运行多版本引擎。
- 分布式推理与弹性伸缩:支持单节点多卡及跨节点张量并行,自动把超大模型切分到多台机器,实现水平扩展。
- 企业级高可用:提供模型实例冗余、自动故障检测与指数退避重启、负载均衡,保障生产级 SLA。
- 零侵入 API:100% 兼容 OpenAI 协议,原有 Chat、Embedding、Audio、Image 等接口无需改造即可迁移。
- 可视化运维:Web 仪表盘实时展示 GPU 利用率、模型吞吐、Token 用量、API 调用排行,支持报警与日志追踪。
- 多租户与权限:RBAC 角色管理、API Key 分级、配额限流,满足企业安全合规与成本核算需求。
- 模型生命周期管理:一键部署、灰度升级、版本回滚、离线导入、下载缓存、自动兼容性检查,降低运维负担。
使用方法
- 安装:在 Linux/macOS 执行
curl -sfL https://get.gpustack.ai | sh -,Windows 以管理员 PowerShell 运行Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content。 - 登录:浏览器访问
http://<server-ip>,使用首次生成的 admin 密码进入控制台。 - 添加节点:在其他机器执行相同安装脚本并附加
--server-url与--token参数,即可组成 GPU 集群。 - 部署模型:在“Models”页面点击“Deploy Model”,选择 Hugging Face/本地路径,填写模型名称与参数后保存。
- 获取 API Key:进入“API Keys”创建新密钥,复制备用。
- 调用服务:在 Playground 调试后,通过标准 OpenAI 客户端或 curl 发送请求,如
curl -H "Authorization: Bearer <key>" http://<server>/v1/chat/completions -d {...}。 - 监控与扩容:在 Dashboard 观察 GPU 与模型指标,按需添加节点或调整副本数。
应用场景
- 企业内部私有化大模型服务:在本地机房或混合云部署专属 ChatGPT,保障数据不出境。
- 高校与科研机构算力共享:把实验室分散的 GPU 整合为统一平台,供师生在线调用各类开源模型。
- 离线或边缘环境推理:在断网工厂、车载设备、边缘节点上通过 CPU+GPU 混合运行轻量化模型。
- 多模态 AI 应用落地:一站式托管文本、图像、语音、Embedding、Rerank 模型,快速构建 RAG 知识库与智能客服。
- 开发测试与持续集成:利用 GPUStack Playground 进行 Prompt 工程、模型对比、性能压测,再无缝迁移到生产集群。