Fireworks AI

高性能生成式AI推理引擎平台

付费

产品简介

Fireworks AI 是一个专为开发者和企业设计的高性能生成式人工智能（Generative AI）平台，由前 PyTorch 核心团队成员创立。该AI算力平台的核心是一个业界领先的高速推理引擎，旨在以极低的延迟和高吞吐量运行和扩展开源大语言模型（LLM），从而实现AI应用的实时响应。它致力于解决从模型原型到生产部署过程中的性能瓶颈问题，让开发者能够快速、经济地构建和集成可定制的AI产品体验。Fireworks AI 提供与 OpenAI 兼容的 API 端点，极大地简化了开发者的迁移和集成工作。平台不仅支持模型的微调、自定义模型上传和部署，还支持构建由多个模型协同工作的“复合AI系统”，适用于复杂的应用场景。凭借其在速度、可扩展性和企业级安全（如SOC2认证）方面的优势，Fireworks AI 已成为Quora等公司信赖的合作伙伴，并被《时代》杂志评为年度最佳发明之一，是驱动下一代AI应用的关键基础设施。

主要功能

极致性能的推理引擎： 平台的核心优势在于其自研的高效推理服务，能够提供极低的延迟和极高的吞吐量，确保AI应用在生产环境中具备实时交互能力，非常适合对响应速度有严苛要求的任务。
全面的模型定制与微调： 用户不仅可以使用平台预置的多种开源模型，还可以上传自己的定制模型，或通过LoRA等技术对基础模型进行微调，以适应特定的业务需求和数据，实现高度个性化的AI功能。
OpenAI兼容的API接口： 平台提供与OpenAI完全兼容的API，这意味着开发者可以无缝迁移现有的代码和应用，使用熟悉的工具和库与Fireworks AI进行交互，大大降低了学习和接入成本。
支持多样化高级查询模式： 平台能力不止于简单的文本生成，还支持视觉语言模型查询、函数调用（Function Calling）、JSON模式和语法约束模式（Grammar Mode），让开发者能构建更复杂、更可靠的结构化数据输出应用。
企业级的灵活部署与安全性： 提供包括云端、私有云（VPC）乃至本地化在内的多种灵活部署选项，并具备SOC2 Type II和HIPAA合规性，同时提供工作负载监控、审计日志和安全团队管理功能，满足企业对数据安全和合规的最高标准。

使用方法

注册并创建账户： 访问 Fireworks AI 官方网站，完成注册流程以获取平台访问权限。
获取API密钥： 登录到您的账户后台，在设置或API密钥管理页面创建一个新的API Key，此密钥将用于后续所有API请求的身份验证。
选择模型： 浏览平台提供的模型库，根据您的应用需求选择一个合适的开源模型，例如 Llama 3、Mixtral 或 Firellava 等。每个模型都有其特定的API标识符。
发起API请求： 由于平台兼容OpenAI的API，您可以使用任何支持OpenAI的HTTP客户端或官方库。只需将API请求的基础URL（Base URL）指向 Fireworks AI 的端点 (https://api.fireworks.ai/inference/v1/)，并传入您的API密钥和所选模型的名称即可开始调用。
（高级）定制与部署： 对于更高级的需求，您可以通过平台的SDK或Web界面上传数据集进行模型微调，或者将训练好的LoRA适配器与基础模型合并，部署成一个专属于您的优化模型端点。

产品价格

1. Serverless Inference（按 token 计费）

文本与视觉模型

模型规模	价格（每 100 万 tokens）
< 4B 参数	$0.10
4B - 16B 参数	$0.20
> 16B 参数	$0.90
MoE 0B - 56B（如 Mixtral 8x7B）	$0.50
MoE 56.1B - 176B（如 DBRX）	$1.20
热门模型	输入 / 输出价格（每 100 万 tokens）
DeepSeek R1（Fast）	$3.00 / $8.00
Meta Llama 4 Maverick（Basic）	$0.22 / $0.88
Qwen3 235B	$0.22 / $0.88
Kimi K2 Instruct	$0.60 / $2.50

语音转文字（STT）

模型	价格（每音频分钟）
Whisper-v3-large	$0.0015
Whisper-v3-large-turbo	$0.0009
Streaming transcription	$0.0032
附加选项	费用
Diarization（说话人分离）	+40% 附加费
Batch API	40% 折扣

图像生成

模型	价格（每步 / 每张图）
SDXL、Playground 等	$0.00013/步（30 步约 $0.0039）
FLUX.1 [dev]	$0.0005/步（28 步约 $0.014）
FLUX.1 Kontext Pro	$0.04/张
FLUX.1 Kontext Max	$0.08/张

Embeddings（嵌入模型）

模型参数规模	价格（每 100 万输入 tokens）
≤ 150M	$0.008
150M - 350M	$0.016
Batch 推理	50% 折扣

2. Fine Tuning（微调）

基础模型规模	价格（每 100 万训练 tokens）
≤ 16B 参数	$0.50
16.1B - 80B 参数	$3.00
DeepSeek R1 / V3	$10.00
备注	使用 LoRA 微调无需额外费用（在账户配额内）。

3. On-Demand Deployments（按 GPU 秒计费）

GPU 类型	价格（每小时）
A100 80GB	$2.90
H100 80GB	$5.80
H200 141GB	$6.99
B200 180GB	$11.99
AMD MI300X	$4.99
特点	无启动时间费用，按秒计费。

应用场景

高性能聊天机器人与虚拟助手： 凭借其极低的延迟，该平台非常适合开发需要快速响应的客户服务机器人、AI伴侣或交互式虚拟助手，确保用户对话流畅自然，提升用户体验。
AI驱动的内容创作与编程助手： 利用其强大的模型定制和微调能力，可以构建各种内容生成工具，例如营销文案自动生成器、博客文章撰写器，或像Quora Copilot++一样的智能代码辅助工具。
复杂的AI搜索引擎与推荐系统： 支持“复合AI系统”的特性使其能够整合多个模型（如嵌入模型用于检索，语言模型用于总结），构建能够深刻理解用户意图的下一代智能搜索和个性化推荐引擎。
企业内部知识库与数据分析： 企业可以利用其私有化部署和安全特性，将Fireworks AI集成到内部系统中，对内部文档和数据进行智能问答、信息提取和数据洞察，同时确保数据隐私和安全。
多模态应用开发： 平台支持视觉语言模型，可用于开发能够理解和处理图像与文本信息的应用，例如，为电商平台自动生成商品描述、图像内容审核或创建交互式视觉问答系统。