工作流 | My AI Research Blog

引言：AI增强软件工程的新范式软件开发行业正处在一个关键的拐点。我们已经超越了仅将AI工具视为代码自动补全助手的时代，例如初代的GitHub Copilot。随着以Anthropic的Claude 3.5 Sonnet为代表的新一代大型语言模型（LLM）的出现，以及像Cursor这样“代码库感知”（codebase-aware）的AI原生IDE的成熟，我们正在见证一场根本性的变革 [1]。Claude 3.5 Sonnet在推理能力、代码质量和生成速度上均表现出卓越的性能，这使得它不再仅仅是一个辅助工具，而是一个有能力的协作者 [3]。这种模型能力与开发环境的深度融合，首次使得通过人机协作构建完整、复杂的应用程序成为一个现实且可行的目标 [7]。本报告的核心论点是：开发者的角色正在从代码的“执行者”（doer）转变为AI协作流程的“指挥官”（director）或“架构师”（architect）[9]。在这个新范式中，最有价值的技能不再仅仅是编码的熟练度，而是将复杂问题分解为可执行任务、为AI提供精确上下文、批判性地评估其输出，以及做出高层次架构决策的能力。为了清晰地展示当前的技术格局，下表对几款领先的AI编码模型进行了比较分析。这些数据揭示了，新一代模型并非简单的渐进式改进，而是在推理、编码和速度等关键维度的组合上实现了质的飞跃，这正是它们能够胜任复杂多步开发任务的基础 [4]。表1：顶尖AI编码模型能力对比特性 Anthropic Claude 3.5 Sonnet OpenAI GPT-4o Google Gemini 1.5 Pro 数据来源编码能力 (HumanEval) 64% (内部代理测试) 被Claude 3.5超越落后于Claude 3.5 [4] 研究生水平推理 (GPQA) 设立新基准被Claude 3.5超越落后于Claude 3.5 [4] 上下文窗口 200K Tokens 128K Tokens 高达 1M-2M Tokens [3] 速度比Claude 3 Opus快2倍 N/A (通常很快) N/A (很快) [4] 成本 (每1M tokens) $3 输入 / $15 输出 (变动，但有竞争力) ~$1.25 输入 (128K内) [4] 核心优势极简、整洁的代码；推理能力通用性强，创造性任务超大上下文，多模态能力 [3] 第一部分：基本原则与现代开发者的思维模式在深入探讨具体的工作流程之前，我们必须首先建立一套全新的思维模式。这套思维模式是驾驭这些强大但仍有缺陷的AI工具的“游戏规则”。 ...