自2023年以来,AI应用开发格局已经显著稳定。以下是做出能够持久的技术栈决策的实用指南。
模型层
对于LLM本身,决策归结为:托管API vs自托管开源。托管API(Anthropic Claude、OpenAI GPT-4o、Google Gemini)提供:无基础设施管理、高质量、简单API、按令牌付费定价。对大多数应用来说是正确的选择。通过Ollama(本地)或vLLM(服务器)等框架自托管开源(Llama 3、Mistral、Qwen):高容量下每令牌成本更低、数据留在内部(对敏感数据很重要),但需要GPU基础设施和工程来维护。自托管变得经济合理的门槛:通常是每月API成本超过10,000到30,000美元。低于这个值,具有基础设施和安全保证的托管API几乎总是更好的选择。模型选择:对于通用任务,Claude Sonnet 4.6和GPT-4o是当前基准;对于成本敏感的高容量推理,较小的模型(Haiku、GPT-4o-mini、Gemini Flash)通常足够;对于特定编码任务,编码优化的模型优于通用模型。
编排层
LangChain和LlamaIndex仍然是构建AI管道的主导框架。LangChain:最适合构建复杂链、具有工具使用的代理,以及需要许多不同集成的应用程序。因抽象复杂性受到批评——随着对问题的更好理解,许多开发者转向更直接的代码。LlamaIndex:更适合文档密集型RAG应用程序,对分块策略、向量存储和检索评估有更强的本地支持。对于更简单的应用程序:直接调用模型API(Anthropic SDK、OpenAI SDK),最少框架通常比LangChain更简洁且更易于维护。当管道复杂时框架增加价值;对于带有提示的单个LLM调用,框架增加了开销而没有收益。新兴:LangGraph(LangChain的一部分)用于具有状态管理的多代理工作流;smolagents(来自Hugging Face)作为轻量级代理框架。
基础设施层
RAG的向量数据库:Pinecone(完全托管,最容易开始)、Weaviate(托管或自托管,更丰富的查询选项)、Chroma(本地,适合开发)、pgvector(Postgres扩展——如果你已经使用Postgres,这通常是最简单的生产选择)。可观察性:LangSmith(LangChain的可观察性工具)、LangFuse(开源替代方案)和Helicone是跟踪LLM调用、评估质量和监控成本的主要选项。没有可观察性,你在质量和成本上是盲目飞行的。缓存:提示缓存(Anthropic和OpenAI都提供前缀缓存,将重复长系统提示的成本降低50到80%)值得尽早实施——它可以在规模上显著降低API成本。
部署和评估现实
大多数AI应用犯的错误:在没有先建立评估框架的情况下构建(你无法改进你不测量的东西);从一开始就没有为提示版本控制和A/B测试设计;低估延迟(LLM推理很慢——响应需要1到5秒——这显著影响UX设计);忽视结构化输出(使用Pydantic模型和模型的JSON输出模式从LLM获取可靠的结构化数据,而不是解析自由文本)。评估优先原则:在构建应用程序UI之前,构建评估套件——一组带有预期输出的测试用例,你可以对模型版本运行以捕获回归。没有这个,提示工程和模型更新变成你在生产中发现的回归。




