大模型(包括 Claude Agent、所有LLM)的最大上下文长度,核心就是:Transformer 架构的「注意力机制」决定物理上限,再由训练+工程锁死实际可用长度。
一、最核心:为什么是「架构」决定上限?
所有现代大模型都是 Transformer,关键模块:
1. 自注意力 Self-Attention(致命关键)
注意力的本质:
序列里每一个字(token),都要和前面所有字做一次计算、关联、理解
大模型(包括 Claude Agent、所有LLM)的最大上下文长度,核心就是:Transformer 架构的「注意力机制」决定物理上限,再由训练+工程锁死实际可用长度。
所有现代大模型都是 Transformer,关键模块:
注意力的本质:
序列里每一个字(token),都要和前面所有字做一次计算、关联、理解
PE和PB是啥
是什么:按照**美国公认会计原则(GAAP)**算出来的、公司最终赚的“账面纯利润”。
净利润 = 总收入 - 所有成本、费用、税费、利息、折旧摊销等行业内部也似乎正在形成一种新的共识:决定 AI 编程上限的,不再是模型本身的单次生成能力,而是 Harness Engineering。
在 Anthropic 最近的工程文章展示了他们对 Long-running Agent(长时运行智能体)的深度探索。为了解决 AI 在长时间任务中“脱轨”的问题,他们构建了一套极其严密的 Harness:
提升森林算法(Boosted Forest / Gradient Boosting Decision Trees, GBDT),是集成学习(Ensemble Learning)的一种,核心思想是串行训练多棵决策树,每棵树都专注于修正前面所有树的预测误差,最终将所有树的结果加权累加,得到极强的预测能力。 它是目前结构化/表格数据(非图像、非文本)领域精度最高、工业界最常用的算法。
假设你要猜一个人的年龄:
用途:面向分享与复习。本文主线按「Learn Claude Code」课程的四阶段、十九步来讲清 Claude Code 作为一类 Code Agent 的本质;泄露事件与工程深挖仅作补充。
说明:正文不夹带网址;需要延伸阅读与引用时,见文末「附录:链接索引」。材料性质(官方文档 / 社区解读 / 个人笔记)分享时需口头区分,产品行为以 Anthropic 官方为准。
(下文基于公开技术梳理;产品名以官方为准。)
上下文管理是工程含量很高的子系统:约 15 个文件、15000+ 行代码,多来自生产踩坑与修补。
曾暴露的问题(量级):例如 1279 个会话出现 50+ 次连续自动压缩失败,单次最多约 3272 次;由此导致全区每天约 25 万 次无效 API 调用。修复思路:连续失败超过 3 次则停止重试,避免空转。
DCF = Discounted Cash Flow,中文:折现现金流估值法。
一句话:用未来能赚到的钱,按风险和时间的折扣,倒推这家公司/资产现在值多少钱。
Claude Code 通过 npm 发布。正常上线前会压缩混淆;开发时为定位 BUG 会生成 Source Map(.map,代码与源码对照),上线本应删除。
2.1.88 版本问题:发布时打包工具 Bun 默认生成 Source Map,且未在配置中排除 .map 文件,约 59.8MB 的 map(含 sources 路径与 sourcesContent 源码片段)被发布到公开 npm。安全研究员发现后迅速传播。此前约去年 2 月也发生过类似问题,属于重复失误。