AI API集成实战：用Claude/OpenAI API构建你的第一个AI功能

2026年4月28日 AI编程 sunqi.org

AI API的集成门槛在2026年已经大幅降低——一个有基本编程基础的开发者，可以在一个下午把AI能力嵌入自己的Web应用。但真正做到生产可用（而非Demo级别），需要理解Streaming、错误处理、成本控制、提示词管理等一系列工程细节。本文是面向Web开发者的AI API集成完整指南。

选择哪个API

OpenAI API：生态最成熟，SDK支持最广泛（Python、Node.js、Go、Java等），是大多数开发者的默认起点。GPT-4o是综合成本/能力比最优的主力模型，Mini版本适合成本敏感场景。

Anthropic API（Claude）：长文本处理和代码能力出色，在需要处理大量上下文的应用（文档分析、代码审查）中往往是更好的选择，API稳定性口碑好。

价格参考（2026年）：GPT-4o约$5/百万输入tokens，$15/百万输出tokens；Claude Sonnet约$3/百万输入，$15/百万输出；GPT-4o Mini约$0.15/$0.6——对于高频轻量任务，Mini版本成本优势极其显著。API价格对比

基础集成（Python示例）

from anthropic import Anthropic
client = Anthropic()
def analyze_document(document_text: str, question: str) -> str:  message = client.messages.create(  model="claude-sonnet-4-6",  max_tokens=1024,  messages=[  {  "role": "user",  "content": f"文档内容：\n{document_text}\n\n问题：{question}"  }  ]  )  return message.content[0].text
# 使用示例 result = analyze_document("合同文本...", "甲方的主要义务是什么？")

Streaming响应：用户体验的关键

对于用户可见的AI输出（聊天界面、文档生成），Streaming（流式输出）是必须实现的功能——让用户看到AI”正在打字”，而不是等待几秒后一次性出现所有文字。

# Streaming示例
with client.messages.stream(
 model="claude-sonnet-4-6",
 max_tokens=1024,
 messages=[{"role": "user", "content": prompt}]
) as stream:
 for text in stream.text_stream:
 print(text, end="", flush=True)

错误处理与重试策略

生产环境必须处理的错误类型：速率限制（429 Rate Limit）、服务不可用（529 Overloaded）、超时。标准处理模式是指数退避重试（Exponential Backoff）：第一次失败等1秒重试，第二次等2秒，第三次等4秒……上限通常设为5次重试。

成本控制的核心手段

缓存（Prompt Caching）：对于包含大量不变内容的请求（系统提示、长文档），Anthropic的Prompt Caching功能可以把重复部分的成本降低90%。模型分级：简单任务（分类、摘要）用Mini/Haiku；复杂推理用Sonnet/GPT-4o；对成本极度敏感用开源模型（本地部署的Llama 4/Qwen 3）。输出长度控制：在系统提示中明确限制”回复不超过200字”，避免AI无节制生成内容。

作者：sunqi.org

链接：https://www.sunqi.org/ai-api-integration-guide-zh.html

文章版权归作者所有，未经允许请勿转载。