安德烈·卡帕西的AI愿景:超越“智能体元年”的炒作

2025年,AI行业掀起了“智能体元年”的热潮,各类会议和媒体报道纷纷宣称智能体即将席卷数字世界,自动化任务并重塑工作流程。然而,AI领域的领军人物安德烈·卡帕西(Andrej Karpathy)在旧金山AI创业学校的一次演讲中,为这股狂热泼了一盆冷水。他不仅警告人们警惕短期炒作,还系统性地勾勒了未来十年AI发展的路径,强调数字基础设施亟需根本性变革。本文总结了他演讲中的核心观点,探讨智能体热潮背后隐藏的深层逻辑以及AI的未来方向。

软件范式巨变:从代码到智能体

卡帕西开篇指出,软件行业正在经历70年来最剧烈的范式转变。他将软件发展分为三个阶段:

软件1.0:手工编码时代

在第一个阶段,人类通过编写代码直接指挥计算机,从早期的FORTRAN到现代的Python和Java,程序员用精确的语法告诉计算机“该做什么”。GitHub上数以亿计的代码库是这一时代的辉煌成果。然而,这一模式受限于人类思维速度和代码复杂性,复杂功能可能需要数百行代码,且需求变更的修改成本极高。

软件2.0:数据编程时代

深度学习的兴起开启了软件2.0时代,神经网络取代显式代码,通过大规模数据训练生成权重。例如,图像识别模型AlexNet并非程序员逐行编写的规则,而是通过数百万张图片训练,让模型自主“学习”特征。卡帕西指出,很多人最初仅将神经网络视为高级分类器,忽视了其代表的范式革命。如今,Hugging Face的模型图谱等平台如同2.0时代的GitHub,存储的不是代码,而是训练好的模型,开发者可直接调用这些“数据编写的程序”。

软件3.0:自然语言时代

大型语言模型(LLMs)的出现标志着软件3.0时代,卡帕西认为这是最具颠覆性的变革。神经网络从专用工具演变为通用计算机,交互语言变为人类日常使用的自然语言。例如,过去进行情感分析需要编写代码或训练特定模型,现在只需给LLM一个提示即可完成。这种“提示工程”(Prompt Engineering)将编程门槛降至历史最低,几乎每个会说话的人都能成为“程序员”。

大语言模型:新型操作系统

为阐释LLM的角色,卡帕西将其比作一种新型操作系统。他借用吴恩达“AI是新电力”的比喻,指出OpenAI、DeepMind等公司如同“发电厂”,投入巨资建设AI数据工厂,训练大模型并通过API提供服务。用户对LLM的需求类似于电力,追求低延迟和高可靠性,OpenRouter等平台则像“智能转换开关”,实现模型间无缝切换。若多个大模型同时宕机,将如同全球“智能断电”,影响整个数字世界的运转。

在技术层面,LLM如同计算机的CPU,负责核心推理;上下文窗口相当于内存,存储任务相关信息;围绕LLM构建的系统则像操作系统,调度资源完成多步骤任务,如数据分析。这种架构重塑了软件开发方式,LLM可协调以往需多个模块协作的任务。

卡帕西还观察到,当前LLM市场格局类似早期操作系统之争。闭源模型如GPT-4、PaLM凭借技术优势占据主流,开源模型如Llama生态则通过协作推动创新。这种双轨制发展平衡了商业稳定性和技术活力,驱动生态持续进化。

大语言模型的优势与局限

卡帕西强调了LLM的卓越优势:

  • 无与伦比的知识储备:LLM的训练数据覆盖互联网级文本,囊括人类几乎所有公开知识,远超任何个体学者。
  • 强大的短期记忆:上下文窗口可处理数万token的信息,相当于瞬间记住一本厚书的内容。
  • 跨领域泛化能力:得益于通用训练,LLM在编码、创意写作等多元任务中表现出色。

然而,他也指出其显著局限:

  • 幻觉问题:LLM可能编造不存在的事实,如坚称“爱因斯坦获三次诺贝尔奖”,而实际上只有一次。
  • 锯齿状智能:在某些领域表现专家级水平,但在简单问题上易犯低级错误。
  • 顺行性遗忘症:每次交互后上下文重置,无法像人类般积累经验,需依赖外部记忆工具。
  • 安全脆弱性:易受提示注入攻击,恶意指令可能导致敏感信息泄露,构成重大风险。

部分自治:人机协作的务实策略

鉴于这些局限,卡帕西主张开发“部分自治应用”,强调人机协作而非不切实际的全自动化。他举了两个案例:

Cursor:协作代码编辑器

AI驱动的代码编辑器Cursor体现了部分自治特征。它自动将代码库信息嵌入模型,理解项目全貌;通过多模型编排实现复杂功能,如代码生成和差异对比;可视化界面让用户快速审查AI建议,快捷键便于接受或拒绝。最关键的是“自治程度滑块”,用户可根据任务风险调整AI自主权,从以人为主导的代码补全到以AI为主的文件修改,在安全与效率间找到平衡。

Perplexity:增强信息检索

Perplexity在搜索中应用类似逻辑,聚合多源信息,调用多个模型交叉验证,并通过带来源引用的界面让用户验证推理过程,支持从快速搜索到深度分析的灵活切换。

这些应用强调人类负责决策和验证,AI处理重复性工作,形成高效协作闭环。界面中的可视化反馈利用人类视觉处理优势,实现毫秒级错误识别;自治滑块满足用户对控制感的需求,逐步建立信任。这种模式不仅适用于工具类应用,未来还将渗透至几乎所有软件领域,成为数字化工具标配。

基础设施瓶颈

卡帕西分享了开发MenuGen应用的经历,揭示了一个关键问题。尽管LLM让他在几小时内完成核心功能——即使他几乎没用过Swift语言,但部署却耗费一周,涉及用户认证、支付集成、域名配置等DevOps任务。这种反差凸显了一个问题:现有数字基础设施是为人类(通过GUI)或传统程序(通过API)设计的,而AI智能体作为第三类用户,既无法依赖视觉点击,也非固定API交互,所需的是机器可读的结构化信息。

AI智能体处理人类界面(如网页表单)需解析视觉元素和模拟点击,效率低下且易错,成为创新落地的“最后一公里”障碍。

系统性解决方案:AI友好的基础设施

为解决这一结构性问题,卡帕西提出“双向奔赴”的策略,人类应主动改造基础设施以适应AI,而非让AI适应人类世界。具体方案包括:

  1. LM.txt文件:类似robots.txt,专为AI智能体设计,用Markdown描述网站功能、API和数据结构(如“/api/weather?city=[城市名]”)。相比解析复杂网页DOM,这种机器语言交互可将效率提升数个数量级。

  2. 双语文档:文档应同时满足人类和AI需求,结合人类可读的步骤说明和AI可执行的API调用或命令行指令。Vercel和Stripe已开始提供为LLM优化的结构化API文档,提升AI和人类开发者的效率。

  3. 桥梁工具:将人类为中心的信息(如GitHub页面或Excel表格)转为AI友好格式(如纯文本或JSON)。这些工具解决智能体与现有系统的交互障碍,让遗留系统无需彻底重构即可接入AI生态。

卡帕西强调,期望多模态模型模拟人类点击是低效的,就像让人类用脚打字,不如设计适合手的键盘。人类主动提供机器可读接口、结构化文档和转换工具,AI即可更高效地完成交互。

十年耐心的征程

卡帕西以自动驾驶经历为鉴,警示技术演示与实际产品间的“可靠性鸿沟”。2013年,他体验了Waymo近乎完美的自动驾驶演示,却未料12年后仍未完全商业化。类似地,2025年“智能体元年”的炒作可能让创业者忽视基础设施缺失,盲目追求全自动化,陷入落地困境。

他将当前AI策略比作钢铁侠战衣,融合人类控制的增强模式与半自主智能模式。部分自治通过优秀的人机接口让人类高效监督AI,是一条务实路径,既发挥LLM优势,又规避其缺陷。

全民技术革命

与以往由政府或巨头主导的技术变革不同,AI革命具有独特的全民性。通过互联网,LLM迅速普及至全球数十亿用户,每个人都可通过提示工程参与编程,创业者能在新基础设施上构建应用。这是一场真正的全民技术革命,我们正站在历史转折点上。

卡帕西最后呼吁开发者拥抱LLM带来的效率革命,同时保持清醒,警惕炒作陷阱。脚踏实地构建可靠的协作生态,虽不炫目,却是通往AI未来最稳妥的必经之路。

No comments

公司简介

 

自1996年以来,公司一直专注于域名注册、虚拟主机、服务器托管、网站建设、电子商务等互联网服务,不断践行"提供企业级解决方案,奉献个性化服务支持"的理念。作为戴尔"授权解决方案提供商",同时提供与公司服务相关联的硬件产品解决方案。
备案号: 豫ICP备05004936号-1

联系方式

地址:河南省郑州市经五路2号

电话:0371-63520088

QQ:76257322

网站:800188.com

电邮:该邮件地址已受到反垃圾邮件插件保护。要显示它需要在浏览器中启用 JavaScript。