安德烈·卡帕西的AI愿景：超越“智能体元年”的炒作

技术文章 6月 22, 2025

2025年，AI行业掀起了“智能体元年”的热潮，各类会议和媒体报道纷纷宣称智能体即将席卷数字世界，自动化任务并重塑工作流程。然而，AI领域的领军人物安德烈·卡帕西（Andrej Karpathy）在旧金山AI创业学校的一次演讲中，为这股狂热泼了一盆冷水。他不仅警告人们警惕短期炒作，还系统性地勾勒了未来十年AI发展的路径，强调数字基础设施亟需根本性变革。本文总结了他演讲中的核心观点，探讨智能体热潮背后隐藏的深层逻辑以及AI的未来方向。

软件范式巨变：从代码到智能体

卡帕西开篇指出，软件行业正在经历70年来最剧烈的范式转变。他将软件发展分为三个阶段：

软件1.0：手工编码时代

在第一个阶段，人类通过编写代码直接指挥计算机，从早期的FORTRAN到现代的Python和Java，程序员用精确的语法告诉计算机“该做什么”。GitHub上数以亿计的代码库是这一时代的辉煌成果。然而，这一模式受限于人类思维速度和代码复杂性，复杂功能可能需要数百行代码，且需求变更的修改成本极高。

软件2.0：数据编程时代

深度学习的兴起开启了软件2.0时代，神经网络取代显式代码，通过大规模数据训练生成权重。例如，图像识别模型AlexNet并非程序员逐行编写的规则，而是通过数百万张图片训练，让模型自主“学习”特征。卡帕西指出，很多人最初仅将神经网络视为高级分类器，忽视了其代表的范式革命。如今，Hugging Face的模型图谱等平台如同2.0时代的GitHub，存储的不是代码，而是训练好的模型，开发者可直接调用这些“数据编写的程序”。

软件3.0：自然语言时代

大型语言模型（LLMs）的出现标志着软件3.0时代，卡帕西认为这是最具颠覆性的变革。神经网络从专用工具演变为通用计算机，交互语言变为人类日常使用的自然语言。例如，过去进行情感分析需要编写代码或训练特定模型，现在只需给LLM一个提示即可完成。这种“提示工程”（Prompt Engineering）将编程门槛降至历史最低，几乎每个会说话的人都能成为“程序员”。

大语言模型：新型操作系统

为阐释LLM的角色，卡帕西将其比作一种新型操作系统。他借用吴恩达“AI是新电力”的比喻，指出OpenAI、DeepMind等公司如同“发电厂”，投入巨资建设AI数据工厂，训练大模型并通过API提供服务。用户对LLM的需求类似于电力，追求低延迟和高可靠性，OpenRouter等平台则像“智能转换开关”，实现模型间无缝切换。若多个大模型同时宕机，将如同全球“智能断电”，影响整个数字世界的运转。

在技术层面，LLM如同计算机的CPU，负责核心推理；上下文窗口相当于内存，存储任务相关信息；围绕LLM构建的系统则像操作系统，调度资源完成多步骤任务，如数据分析。这种架构重塑了软件开发方式，LLM可协调以往需多个模块协作的任务。

卡帕西还观察到，当前LLM市场格局类似早期操作系统之争。闭源模型如GPT-4、PaLM凭借技术优势占据主流，开源模型如Llama生态则通过协作推动创新。这种双轨制发展平衡了商业稳定性和技术活力，驱动生态持续进化。

大语言模型的优势与局限

卡帕西强调了LLM的卓越优势：

无与伦比的知识储备：LLM的训练数据覆盖互联网级文本，囊括人类几乎所有公开知识，远超任何个体学者。
强大的短期记忆：上下文窗口可处理数万token的信息，相当于瞬间记住一本厚书的内容。
跨领域泛化能力：得益于通用训练，LLM在编码、创意写作等多元任务中表现出色。

然而，他也指出其显著局限：

幻觉问题：LLM可能编造不存在的事实，如坚称“爱因斯坦获三次诺贝尔奖”，而实际上只有一次。
锯齿状智能：在某些领域表现专家级水平，但在简单问题上易犯低级错误。
顺行性遗忘症：每次交互后上下文重置，无法像人类般积累经验，需依赖外部记忆工具。
安全脆弱性：易受提示注入攻击，恶意指令可能导致敏感信息泄露，构成重大风险。

部分自治：人机协作的务实策略

鉴于这些局限，卡帕西主张开发“部分自治应用”，强调人机协作而非不切实际的全自动化。他举了两个案例：

Cursor：协作代码编辑器

AI驱动的代码编辑器Cursor体现了部分自治特征。它自动将代码库信息嵌入模型，理解项目全貌；通过多模型编排实现复杂功能，如代码生成和差异对比；可视化界面让用户快速审查AI建议，快捷键便于接受或拒绝。最关键的是“自治程度滑块”，用户可根据任务风险调整AI自主权，从以人为主导的代码补全到以AI为主的文件修改，在安全与效率间找到平衡。

Perplexity：增强信息检索

Perplexity在搜索中应用类似逻辑，聚合多源信息，调用多个模型交叉验证，并通过带来源引用的界面让用户验证推理过程，支持从快速搜索到深度分析的灵活切换。

这些应用强调人类负责决策和验证，AI处理重复性工作，形成高效协作闭环。界面中的可视化反馈利用人类视觉处理优势，实现毫秒级错误识别；自治滑块满足用户对控制感的需求，逐步建立信任。这种模式不仅适用于工具类应用，未来还将渗透至几乎所有软件领域，成为数字化工具标配。

基础设施瓶颈

卡帕西分享了开发MenuGen应用的经历，揭示了一个关键问题。尽管LLM让他在几小时内完成核心功能——即使他几乎没用过Swift语言，但部署却耗费一周，涉及用户认证、支付集成、域名配置等DevOps任务。这种反差凸显了一个问题：现有数字基础设施是为人类（通过GUI）或传统程序（通过API）设计的，而AI智能体作为第三类用户，既无法依赖视觉点击，也非固定API交互，所需的是机器可读的结构化信息。

AI智能体处理人类界面（如网页表单）需解析视觉元素和模拟点击，效率低下且易错，成为创新落地的“最后一公里”障碍。

系统性解决方案：AI友好的基础设施

为解决这一结构性问题，卡帕西提出“双向奔赴”的策略，人类应主动改造基础设施以适应AI，而非让AI适应人类世界。具体方案包括：

LM.txt文件：类似robots.txt，专为AI智能体设计，用Markdown描述网站功能、API和数据结构（如“/api/weather?city=[城市名]”）。相比解析复杂网页DOM，这种机器语言交互可将效率提升数个数量级。
双语文档：文档应同时满足人类和AI需求，结合人类可读的步骤说明和AI可执行的API调用或命令行指令。Vercel和Stripe已开始提供为LLM优化的结构化API文档，提升AI和人类开发者的效率。
桥梁工具：将人类为中心的信息（如GitHub页面或Excel表格）转为AI友好格式（如纯文本或JSON）。这些工具解决智能体与现有系统的交互障碍，让遗留系统无需彻底重构即可接入AI生态。

卡帕西强调，期望多模态模型模拟人类点击是低效的，就像让人类用脚打字，不如设计适合手的键盘。人类主动提供机器可读接口、结构化文档和转换工具，AI即可更高效地完成交互。

十年耐心的征程

卡帕西以自动驾驶经历为鉴，警示技术演示与实际产品间的“可靠性鸿沟”。2013年，他体验了Waymo近乎完美的自动驾驶演示，却未料12年后仍未完全商业化。类似地，2025年“智能体元年”的炒作可能让创业者忽视基础设施缺失，盲目追求全自动化，陷入落地困境。

他将当前AI策略比作钢铁侠战衣，融合人类控制的增强模式与半自主智能模式。部分自治通过优秀的人机接口让人类高效监督AI，是一条务实路径，既发挥LLM优势，又规避其缺陷。

全民技术革命

与以往由政府或巨头主导的技术变革不同，AI革命具有独特的全民性。通过互联网，LLM迅速普及至全球数十亿用户，每个人都可通过提示工程参与编程，创业者能在新基础设施上构建应用。这是一场真正的全民技术革命，我们正站在历史转折点上。

卡帕西最后呼吁开发者拥抱LLM带来的效率革命，同时保持清醒，警惕炒作陷阱。脚踏实地构建可靠的协作生态，虽不炫目，却是通往AI未来最稳妥的必经之路。

按类别购物

安德烈·卡帕西的AI愿景：超越“智能体元年”的炒作

软件范式巨变：从代码到智能体

软件1.0：手工编码时代

软件2.0：数据编程时代

软件3.0：自然语言时代

大语言模型：新型操作系统

大语言模型的优势与局限

部分自治：人机协作的务实策略

Cursor：协作代码编辑器

Perplexity：增强信息检索

基础设施瓶颈

系统性解决方案：AI友好的基础设施

十年耐心的征程

全民技术革命

No comments

10分钟掌握 Google AI Studio：从灵感到作品的实战指南

用10分钟带你全面掌握 Google AI Studio：从入门到实战

MySQL 和 PostgreSQL：发音大不同

Information

公司简介

联系方式

友情链接

特色文章

关注我们