现在人人都能编程:AI代理如何构建你的整个应用

摘要
2024年,个人计算迎来了新的篇章:个人软件。Replit首席执行官Amjad Masad在本期《光锥》节目中展示了刚刚推出的Replit Agent——一个能根据自然语言描述从零构建完整Web应用的多智能体系统。在直播演示中,仅凭一句“我想记录每日情绪并关联前一天的行为”,Agent便自动选择了Flask、PostgreSQL等技术栈,编写前后端代码,处理依赖,甚至主动提出可视化与提醒等高级功能,最终将应用部署上线。整个过程中,Agent像一位严谨的开发者:自主规划、编写代码、接收语言服务器的反馈并修正错误,最后请求人类进行QA测试。
技术核心在于多智能体协同架构,其中不同模型各司其职(Claude Sonnet 3.5负责主编码,GPT-4o用于其他环节),并自研了超越传统RAG的检索系统,能够以符号化方式理解代码库结构,精准定位编辑位置。Amjad强调,这并非终极自动编程引擎,而更像一位“数字同事”——时而能一气呵成,时而需要人类介入调试。因此,编程知识不仅没有贬值,反而因可驾驭智能体大军而带来杠杆效应。团队的组织方式也颇具启发性:他们摒弃官僚层级,组建跨职能“智能体特遣部队”,通过每周“战争会议”和“沙龙”快速迭代。
节目还分享了诸多用户案例:有人将酝酿了15年的想法在15分钟内实现,有人把耗时18个月的创业原型用10分钟复刻。面向未来,Replit Agent将重点提升可靠性、支持更多技术栈,并引入画布绘图、语音等更自然的交互方式,以及让高级用户能预览和批准每次改动的单步操作模式。Amjad认为,当前正迈向“功能性AGI”,但真正的通用智能仍需高效的自主学习能力。人类与机器的共生,才是这一波的真正主题。
正文
开场:个人软件的新纪元
1984年,Macintosh将个人计算带给了大众。四十年后,我们迎来了个人软件。在《光锥》节目的录制现场,嘉宾Amjad Masad难掩兴奋:“你实际上将能够像指挥一支庞大的智能体军团,就像《幻想曲》中的米奇,突然之间所有的扫帚都活了过来走动、跳舞,这是一种能够随心所欲构建任何东西的魔法。”这是一股从“有想法却无工具”到“15年的想法在15分钟内实现”的解放力量,有人因此在屏幕前感动落泪。
Amjad是Replit的创始人,他此次前来的目的,是展示刚刚发布的产品——Replit Agent。这是一个处于早期访问阶段的工具,用他的话说是“勉强算测试版软件,还有很多bug,但人们已经为之疯狂”。他们决定进行一场现场演示,目标是用一句话构建一个记录晨间情绪,并将之与前一天行为相关联的个人应用。
现场演示:从一句提示词到上线应用
Amjad在聊天界面中简单地输入:“我想每天早上记录我的心情,并连带昨晚是否喝咖啡、是否饮酒以及是否运动。”消息发送后,智能体(Agent)立刻开始思考。它首先回复了一份计划:创建一个可以记录情绪、咖啡、酒精和运动的App,并主动建议增加数据可视化与提醒功能。Amjad决定先不加入提醒,只保留核心功能。更令人惊叹的是,Agent自主选择了Flask作为后端框架、Vanilla JS用于前端、PostgreSQL作为数据库——一个极其轻量且能快速启动的技术栈。这些决策不需要用户拥有任何技术背景。
接着,进度面板展示了Agent的实时动作:它正在编写代码、建立数据库连接、安装软件包。对于那些初学编程的人来说,最头疼的依赖管理和环境配置,此刻被全自动完成。很快,一个情绪记录应用就生成了。Amjad可以滑动表情来记录心情,并查看历史记录。这已经是一个带有后台、数据库的完整Web应用。
Agent的下一步举动体现了它的“智能同事”属性:它自行截取应用界面的截图,利用多模态模型的视觉能力判断应用是否正常显示,然后向用户发出请求:“我进行了初步测试,你能帮我做一下人工QA吗?”这表明系统不仅会编程,还会主动将测试工作流的一部分交给人类伙伴,以求更好的质量。
最后,当用户基本满意后,Agent主动询问是否需要部署。一键操作之后,这个应用就从本机瞬间变为全世界可访问的线上服务。从脑中一个模糊的念头,到任何人都可以访问的URL,中间几乎没有任何障碍。主持嘉宾之一、Google Brain联合创始人Jared感慨,这正是从“个人计算”到“个人软件”的跨越。
技术内幕:多智能体架构与超越RAG的检索
演示背后是一套精心设计的复杂系统。Amjad解释道,Replit Agent是一个多智能体系统,针对不同任务使用不同模型。主编码任务依赖Claude Sonnet 3.5,它在代码生成上几乎无可匹敌;但在某些场景也会调用GPT-4o。此外,团队自研了极快的二进制嵌入模型,用于内部检索和索引。这些工具都构建在LangGraph等框架之上,形成可以追踪的智能体有向无环图(DAG),但调试工作仍极其困难。
整个架构的核心是一种类似ReAct(推理-行动循环)的模式:智能体观察环境、思考、调用工具、接收反馈、再思考。但与常见实现不同,Replit给智能体配备了和人类相同的工具,并精心设计了反馈闭环。例如,其代码编辑工具会返回Python语言服务器的错误信息——就像人类开发者在IDE里看到红色波浪线一样。这种设计让智能体像一个真正的用户,能根据反馈修正自己。
然而,关键创新在于对检索系统的重构。Amjad明确指出,简单地将整个代码库扔进检索增强生成(RAG)已经是死胡同。为了让智能体有效编辑代码,必须以更符号化的方式理解程序结构——需要同时进行类RAG的嵌入检索和对函数、符号的精确查找。这种方法被称为“神经符号式”,将大语言模型的直觉与经典计算机科学中编译原理层面的图结构结合在一起。因此,即便未来模型拥有百万级令牌的超长上下文窗口,这种结构化查找能力依然不可或缺,因为模型的注意力会偏向末尾,而符号化记忆能避免“用错误记忆干扰当前任务”的风险。
另一个重要设计是记忆管理。智能体在执行每一步时都会将经验存入记忆库。在下一步启动前,系统必须挑选出正确的记忆并放入上下文。如果选取的一段记忆包含早已修复的bug,整个决策过程就会被污染。因此,记忆必须被动态增删或覆盖,而这又是一个需要精细平衡的工程难题。
编程学习的变革:从“无需学”到“超强杠杆”
工具的跃升带来了对学习编程必要性的广泛讨论。Amjad和嘉宾一致认为,当前不仅需要学习编程,而且学习编程的回报正以惊人的速度增长。如果说2020年懂一点编程用处不大,2023年借助ChatGPT能走很远,那么到了2024年,掌握一点编程就能掌控这类智能体为自己征战——知识杠杆率每六个月就可能翻一番。正如Jared所比喻的,这就像《幻想曲》里的魔法师学徒,一旦掌握了指挥术,所有扫帚就为你劳动。
Amjad回忆起自己这一代人学习编程的方式:从编辑MySpace页面、玩GeoCities开始,以一种渐进的、充满乐趣的方式被引入代码世界。而今,这种入门路径被昂贵的计算机科学学位或编程训练营所替代。他希望Replit Agent能重建这座从“好玩”到“有用”的桥梁。对于完全不懂编程的用户,他们可以先从自然语言对话开始,逐渐对生成的代码产生好奇,最终自己动手修改、阅读、调试。这就是从“零代码”用户到程序员的平滑过渡——一种“低地板、高天花板”的工具哲学。
走向AGI:功能性与通用性之辩
关于通用人工智能(AGI)的路径,Amjad从构建这个系统的经验中形成了独特的看法。他觉得很快就能实现“功能性AGI”,即自动化所有具备经济价值的重复性任务。这只是一种工程上的蛮力问题,类似于特斯拉自动驾驶从规则系统走向端到端训练的过程:我们围绕着模型构建各种外围系统,最终模型将这些系统“吞噬”,形成端到端的学习体。
然而,他并不认为这就是真正的AGI。真正的AGI应具备高效学习的能力——被抛入一个完全未知的环境中,能通过观察来理解环境并掌握所需技能。当前的大语言模型本质上是“直觉机器”,而不是高效的自主学习者。你必须按照任务(比如编程)刻意为它们叠加一层包含符号表示、回溯搜索等经典AI方法的系统,才能使其可靠工作。这恰恰证明了纯粹的规模化无法自动产生通用智能,需要将传统的严谨计算与新范式深度融合。
用户故事:解锁被囚禁的创意
虽然产品才上线四天,但令人惊叹的案例已经涌现。最让Amjad动容的是一个用户的故事:他有一张保存了15年的想法,一直苦于没有工具去实现。在Replit Agent的帮助下,他仅用15分钟就建成了应用——一个把个人记忆标注在地图上并附着文件、录音的“人生足迹”应用。当应用真正跑起来那一刻,他记录下了自己吃惊的表情,Amjad说自己看到后几乎落泪。“能够解锁他人的创造力,是一种极大的回报。”
还有一位创业者Meck,仅用5到10分钟就生成了一个Stripe优惠券管理工具。他经营一门线上课程,需要灵活发送优惠码。按照传统方式,他可能需要拼凑Bubble、Zapier等多个无代码工具,且一碰到边界就无能为力。现在,直接生成代码的方式不仅更快,而且没有死胡同。Amjad还提到,有人花了18个月搭建的创业原型,用代理器在10分钟内就复刻了出来。这种跨越数量级的时间压缩效应,无疑将节省数以百万计的小时。对于无代码用户而言,Replit Agent是一台“编码生成器”;当他们意识到可以直接修改底层代码时,也就悄然踏上了编程之路。
组织重塑:用“特遣部队”对抗官僚惯性
令人意想不到的是,Amjad在技术突破前,刚刚经历了一次痛苦的内部组织转型。2023年,Replit融了一大笔资,他被外界典型的“创业者应该聘请高管、建立管理层”的建议包围。层层会议、路线图、规划会纷至沓来,但Amjad内心的直觉却越来越清晰:这些是层层伪装的“LARPing”(角色扮演),而不是真正的工作。
他果断地踩下刹车,通过裁员和扁平化组织,将公司又拉回到自己亲自处理三四个核心项目、清楚每个人在做什么的状态。重新轻装上阵后,效率反而激增。为攻克AI代理这个全新领域,他组建了跨职能的“智能体特遣部队(Agent Task Force)”。这个特遣部队的结构恰好映射了正在构建的多智能体系统:中心一个负责协调的AI团队(类似内核),周围连接着IDE团队(负责截图代理)、DevEx团队(负责包管理)、用户体验与设计团队等。每个工具团队甚至都在构建自己的代理。
每周,团队进行两次集体研跑:周一“战争房间”由AI负责人带领,寻找所有破坏点并确定当周优先级;周五“智能体沙龙”则由Amjad亲自主持,边跑产品边质问哪里不对,当场修改产品方向或调整工程安排。这种高频、高压、高灵活性的组织模式,成功地将一个前沿项目迅速推向市场。
未来之路:可靠性、多模态交互与渐进控制
对于产品的后续进化,Amjad列出了三个清晰的方向:
第一是可靠性。当前Agent有时会陷入自我循环或执行错误步骤,必须大幅减少这些故障模式。第二是全面支持任何技术栈。现在Agent偏好Python等自身决策的栈,但未来应该接受用户明确的框架指令,甚至提供幽默的“暴躁程序员模式”,只用Lisp写代码,哪怕UI一塌糊涂。第三是更丰富的交互方式。未来的创作用户不应只通过打字交流,应该能在画布上画出一个按钮的位置、圈出需要重构的代码块,甚至直接用语音描述修改。这种将程序全部视为可绘画布的理念,将让许多原本只属于Figma设计稿里的编排动作,直接转化为代码。
对高级用户,Amjad还计划推出“单步操作”模式。这将允许用户在接纳智能体建议前执行预演(dry run):展示所有将要变更的文件差异、即将安装的包,并由用户批准后才实际执行。这兼顾了自动化的效率与专业开发者的控制权,使用户可以安心地将智能体纳入现有工作流。
结语与号召
尽管Amjad反复强调这款产品“实在很早期”,他只建议勇敢且愿意提供反馈的用户前来体验。由于背后巨大的算力成本,目前Agent功能只对Core付费计划开放。但体验路径非常简单:登录Replit,首页就会显示“你想构建什么?”,输入几句而非长篇大论的自然语言描述即可开始。Amjad鼓励大家带着一个简单的创意去尝试,最神奇的事情往往发生在那些非技术的、源自生活的念头里。
“是时候去感受AGI了。”节目在音乐与对下周再见面的期待中结束,留给观众的不仅是一个新工具的消息,更是对个人创造力与软件工业未来交织图景的深深一瞥。