产品简介
Fireworks AI 是一个专为开发者和企业设计的高性能生成式人工智能(Generative AI)平台,由前 PyTorch 核心团队成员创立。该AI算力平台的核心是一个业界领先的高速推理引擎,旨在以极低的延迟和高吞吐量运行和扩展开源大语言模型(LLM),从而实现AI应用的实时响应。它致力于解决从模型原型到生产部署过程中的性能瓶颈问题,让开发者能够快速、经济地构建和集成可定制的AI产品体验。Fireworks AI 提供与 OpenAI 兼容的 API 端点,极大地简化了开发者的迁移和集成工作。平台不仅支持模型的微调、自定义模型上传和部署,还支持构建由多个模型协同工作的“复合AI系统”,适用于复杂的应用场景。凭借其在速度、可扩展性和企业级安全(如SOC2认证)方面的优势,Fireworks AI 已成为Quora等公司信赖的合作伙伴,并被《时代》杂志评为年度最佳发明之一,是驱动下一代AI应用的关键基础设施。
主要功能
- 极致性能的推理引擎: 平台的核心优势在于其自研的高效推理服务,能够提供极低的延迟和极高的吞吐量,确保AI应用在生产环境中具备实时交互能力,非常适合对响应速度有严苛要求的任务。
- 全面的模型定制与微调: 用户不仅可以使用平台预置的多种开源模型,还可以上传自己的定制模型,或通过LoRA等技术对基础模型进行微调,以适应特定的业务需求和数据,实现高度个性化的AI功能。
- OpenAI兼容的API接口: 平台提供与OpenAI完全兼容的API,这意味着开发者可以无缝迁移现有的代码和应用,使用熟悉的工具和库与Fireworks AI进行交互,大大降低了学习和接入成本。
- 支持多样化高级查询模式: 平台能力不止于简单的文本生成,还支持视觉语言模型查询、函数调用(Function Calling)、JSON模式和语法约束模式(Grammar Mode),让开发者能构建更复杂、更可靠的结构化数据输出应用。
- 企业级的灵活部署与安全性: 提供包括云端、私有云(VPC)乃至本地化在内的多种灵活部署选项,并具备SOC2 Type II和HIPAA合规性,同时提供工作负载监控、审计日志和安全团队管理功能,满足企业对数据安全和合规的最高标准。
使用方法
- 注册并创建账户: 访问 Fireworks AI 官方网站,完成注册流程以获取平台访问权限。
- 获取API密钥: 登录到您的账户后台,在设置或API密钥管理页面创建一个新的API Key,此密钥将用于后续所有API请求的身份验证。
- 选择模型: 浏览平台提供的模型库,根据您的应用需求选择一个合适的开源模型,例如 Llama 3、Mixtral 或 Firellava 等。每个模型都有其特定的API标识符。
- 发起API请求: 由于平台兼容OpenAI的API,您可以使用任何支持OpenAI的HTTP客户端或官方库。只需将API请求的基础URL(Base URL)指向 Fireworks AI 的端点 (
https://api.fireworks.ai/inference/v1/),并传入您的API密钥和所选模型的名称即可开始调用。
- (高级)定制与部署: 对于更高级的需求,您可以通过平台的SDK或Web界面上传数据集进行模型微调,或者将训练好的LoRA适配器与基础模型合并,部署成一个专属于您的优化模型端点。
产品价格
1. Serverless Inference(按 token 计费)
文本与视觉模型
| 模型规模 |
价格(每 100 万 tokens) |
| < 4B 参数 |
$0.10 |
| 4B - 16B 参数 |
$0.20 |
| > 16B 参数 |
$0.90 |
| MoE 0B - 56B(如 Mixtral 8x7B) |
$0.50 |
| MoE 56.1B - 176B(如 DBRX) |
$1.20 |
| 热门模型 |
输入 / 输出价格(每 100 万 tokens) |
| DeepSeek R1(Fast) |
$3.00 / $8.00 |
| Meta Llama 4 Maverick(Basic) |
$0.22 / $0.88 |
| Qwen3 235B |
$0.22 / $0.88 |
| Kimi K2 Instruct |
$0.60 / $2.50 |
语音转文字(STT)
| 模型 |
价格(每音频分钟) |
| Whisper-v3-large |
$0.0015 |
| Whisper-v3-large-turbo |
$0.0009 |
| Streaming transcription |
$0.0032 |
| 附加选项 |
费用 |
| Diarization(说话人分离) |
+40% 附加费 |
| Batch API |
40% 折扣 |
图像生成
| 模型 |
价格(每步 / 每张图) |
| SDXL、Playground 等 |
$0.00013/步(30 步约 $0.0039) |
| FLUX.1 [dev] |
$0.0005/步(28 步约 $0.014) |
| FLUX.1 Kontext Pro |
$0.04/张 |
| FLUX.1 Kontext Max |
$0.08/张 |
Embeddings(嵌入模型)
| 模型参数规模 |
价格(每 100 万输入 tokens) |
| ≤ 150M |
$0.008 |
| 150M - 350M |
$0.016 |
| Batch 推理 |
50% 折扣 |
2. Fine Tuning(微调)
| 基础模型规模 |
价格(每 100 万训练 tokens) |
| ≤ 16B 参数 |
$0.50 |
| 16.1B - 80B 参数 |
$3.00 |
| DeepSeek R1 / V3 |
$10.00 |
| 备注 |
使用 LoRA 微调无需额外费用(在账户配额内)。 |
3. On-Demand Deployments(按 GPU 秒计费)
| GPU 类型 |
价格(每小时) |
| A100 80GB |
$2.90 |
| H100 80GB |
$5.80 |
| H200 141GB |
$6.99 |
| B200 180GB |
$11.99 |
| AMD MI300X |
$4.99 |
| 特点 |
无启动时间费用,按秒计费。 |
应用场景
- 高性能聊天机器人与虚拟助手: 凭借其极低的延迟,该平台非常适合开发需要快速响应的客户服务机器人、AI伴侣或交互式虚拟助手,确保用户对话流畅自然,提升用户体验。
- AI驱动的内容创作与编程助手: 利用其强大的模型定制和微调能力,可以构建各种内容生成工具,例如营销文案自动生成器、博客文章撰写器,或像Quora Copilot++一样的智能代码辅助工具。
- 复杂的AI搜索引擎与推荐系统: 支持“复合AI系统”的特性使其能够整合多个模型(如嵌入模型用于检索,语言模型用于总结),构建能够深刻理解用户意图的下一代智能搜索和个性化推荐引擎。
- 企业内部知识库与数据分析: 企业可以利用其私有化部署和安全特性,将Fireworks AI集成到内部系统中,对内部文档和数据进行智能问答、信息提取和数据洞察,同时确保数据隐私和安全。
- 多模态应用开发: 平台支持视觉语言模型,可用于开发能够理解和处理图像与文本信息的应用,例如,为电商平台自动生成商品描述、图像内容审核或创建交互式视觉问答系统。