- AGI前夜-范式创新图谱 v0.6 发布

“人工智能堆栈尚未完全定义,”
“就像互联网的早期一样,将会有非凡的公司建立起来,提供基础设施和基础工具,也会有中间件和应用程序嵌入我们的生活中,几乎可以增强我们所做的一切。”
AIGC这次是一个范式突破?【王小川】:对的。ChatGPT这个事情,就是机器掌握语言,这是通往AGI中间非常巧妙的路径,它掌握了抽象和推理的能力,并且是建立在语言基础上的。
AGI 从计算机到下一代电脑?大脑: #GPT4
目的和代理:#AutoGPT
感官和神经元:#HuggingGPT
手:#SLAPA 用于执行API的代理
未来会发生什么?**计算机真正变成了电脑
最大的变化是,计算机真正开始理解人类的自然语言。在此之前,我们需要编程代码和固定程序才能和计算机做交互,而现在用自然语言和行为动作就可以做交互。
数据爆胀:
交互方式变得更宽广后带来了第二个大的变化:计算机可采集的数据比以往更多、更细。这些数据大部分是非结构化数据,甚至我们个人都没意识到、但可以被计算机采集,针对企业和消费者的数据一定会爆发很多,Snowflake、Databricks 等数据基础设施在我们看来还会持续收益。
Neo SaaS 从SaaS到BaaS
可采集的数据结构、数据规模的变化对SaaS 行业影响,有利的地方是 SaaS 公司的成本结构会发生变化,过去企业内配置的算法工程师团队可以被 AGI 取代、或者在 AGI 的基础上缩减规模、获得盈利,这是组织管理层面的上的影响,但对于相当一部分 SaaS 公司还应该关注的风险是自身的价值是否会被 AGI 所淹没,尤其是工具型 SaaS。
AI Native
交互方式带来产品形态的变化,AI Native 对产品经理本身的能力也提出了新的要求。在过去,产品经理做的事情是把用户需求抽象出来就可以,现在要求产品经理非常懂大模型的能力和边界,因为很多产品的服务都能够通过大模型来实现,这就要求新一代产品经理的出现。
LLM的边界AI Native 原生现阶段我们很难精确定义未来的 AI Native 应用会长什么样,这里提供一些观察视角。我们认为 AI Native 不能只是语言模型的嵌套,而是对现有软件服务的重构:
给“脑子”装上“手”Action 是大模型探索的下一步。Action 的相关探索可以类比为“给大模型的脑子装上手”。使用工具的能力,是人类智能的重要特点。对于大语言模型也是如此。大语言模型有很强的理解能力,但还不足以判断自己生成内容的置信度,在部分数学计算、实时知识场景下用外部工具才能得到更准确的回答。因此在大模型出色的理解能力之上,教会他使用计算机上的各种工具,是对其能力最大的提升。
在 Action 的实现上,除了 OpenAI 的 Plugin,我们看到 Adept 和 Inflection 这两家早期团队想以自然语言为基础,为用户打造新的 LUI (语言为基础的 UI)方式。
在 Action 实现后,传统的 App 生态和 Saas 软件生态会被打破,体现为三个方面:
1)下游站点的价值有可能被削弱;
2)定义之后大模型与应用互联的 api 标准,之后应用接入都会迎合这一标准;
3)LMO ( Large Model Optimization ) 在未来可能会取代传统 SEO(Search Engine Optimization)。
人机交互的颠覆图形界面仍然承载高频、刚需、易抽象的功能,但低频、灵活度高、复杂的用户需求(以前可能通过低代码实现)能通过和 LLM 交互来解决。从用户学习如何使用复杂产品,变成产品能适应用户需求,用户输入也从有限变成无限,比如输入给 MidJourney 的 Prompt 可以无限灵活。
- 不依赖插件调用外部程序,扩展基于 ChatGPT 类产品的功能
- 自然语言的对话式 UI,避免费劲开发视觉 UI
- 服务残障人士的包容性设计
从 Saas 角度,说具备自然语言交互能力的 GPT 们,会给人机交互、UX 设计带来哪些变化。有几点很有想象空间:
- 用 GPT 代替 SQL 来查询数据
- 用 AI 处理输入的不规整甚至异构数据
- 用 AI 做数据分析
- 用 AI 验证数据
软件 UX 设计的未来:AI 的早期影响
数据和信息重构CRM 记录姓名、电话等结构化数据,以 Gong 为代表的 AI-based CRM 则是记录分析 B2B 销售和客户录音。人们常说数据是石油,LLM 明显把炼油能力增强了,高价值行业和企业内部曾经难记录、难处理的数据都可以被重新以前分析。数据和信息的重构也意味着 AI 能承担更多决策权。
服务的重构服务的重构分为两种:
一种是 AI 有能力直接提供服务。设计师、旅行规划这类发散性服务能先被满足,律师咨询(Donotpay)等需要推断、推理的服务后被满足。Character.ai 和 Quora 推出的 Poe 也可以被看成提供了情感陪伴和知识问答服务;
第二种是 AI 能让消费决策到交易发生的链路变短。以前用户需要在下厨房搜索菜谱,再到生鲜平台下单,有了 ChatGPT Plugin 功能,菜谱和购买食材都可以在一个对话框里完成。
反馈机制的重构传统产品的迭代更多在产品 feature 层面,而以生成模型为基座的产品,不仅能通过 context learning 的能力让用户多轮尝试,纠正输出结果,还能根据用户产生的数据和反馈迭代模型。ChatGPT 是把数据飞轮做得很好的爆款产品,GPT-4 的贡献者名单里还有专门的 data flywheel 负责人。Midjourney 的四选一,Poe、Character.ai 设置的 like 和 dislike 按钮,都是一些获取用户反馈的方法。
第一个假设:MaaS 将颠覆 SaaS?我的理解是:SaaS的生产和使用过程中产生大量的浪费和错误:
SaaS的生命周期是:
- 定义问题的输入输出,列出各种场景
- 选一个场景,产品经理发明新概念新实体新交互
- 研发实现测试调试运行 1/n
- 用户学习这些新概念新实体新交互
- 对更多场景,反复这个过程
这个过程中,人为的无必要的发明了很多中间体,这些中间体的定义和实现还可能犯很多错。而且用户费劲去学习这些中间实体,才能用起来。
这是一个漫长的易出错的过程。2/n
而如果用模型来解决这个“输入输出”的问题,该怎么做呢?
- 选择好AI的算法
- 获得大量的典型的输入输出,训练上面的算法
- 得到一个模型
- 用户输入他的需求给这个模型,输出就相当让他满意。
是不是变得非常简单而且高效了?模型是“直达目标”,给我输入,给你输出,中间过程全部对人类隐藏掉。
AI颠覆软件开发所有这些变化不仅仅是让我们当前的软件生产过程更快。当软件被创建时,由谁创建,出于什么目的,它们会发生变化。
我们可能会开始看到人们使用软件的方式发生了一些令人惊讶的变化:
一次性脚本:普通计算机用户让他们的 AI 每天创建和执行脚本数十次,以执行数据分析、视频编辑或自动执行繁琐任务等任务。
一次性 GUI:人们使用 AI 创建整个 GUI 应用程序,仅用于执行单个特定任务——仅包含他们需要的功能,没有膨胀。
构建而不是购买:企业在内部开发更多软件以满足他们的定制需求,而不是购买现成的 SaaS,因为现在根据用例定制软件更便宜。
修改/扩展:消费者和企业需要扩展和修改他们现有软件的能力,因为现在更容易指定新功能或调整以匹配用户的工作流程。
重组:从您最喜欢的不同应用程序中提取最好的部分,并创建一个将它们组合在一起的新混合体。
第二个假设:颠覆GUI自然语言的威力ChatGPT 可以说真正的掌握了人类的语言,以前虽然有 Siri 、小爱同学这样的语音助手,但他们对语言的理解还非常的基础,还处在通过语言来进行「命令行」的阶段。 而 ChatGPT,无论是对语言输入的理解上,还是在语言的输出上,都做到了媲美人类的程度,让原本难以实现的 NPU(自然语言理解)成为了可能。进一步配合上面说的推理、归纳、因果判断能力,有望彻底改变人机交互的流程:
Chat无法完全取代工具一方面,对于了解计算机工作原理的任何人来说,这是一个非常令人印象深刻的演示,我对它所暗示的所有可能性感到兴奋。
然而……在另一种意义上,这也是一个愚蠢的演示,因为我们已经有了用于修剪视频的直接操作用户界面,具有丰富的交互反馈。例如,考虑用于修剪视频的 iPhone 用户界面,它提供丰富的反馈并精确控制修剪的位置。这比在聊天中来回说“请实际修剪 4.8 秒”要好得多!

从命令到审阅ChatGPT 展现了的建立因果链接和推理的能力,当这个能力成熟意味着软件可以根据少量命令或已有的操作自行延展(或者说预测)出接下来的操作,命令与结果的比例从 1:1 大幅增加到 1:N,人机交互的逻辑可能从大部分时候都在「向软件下达操作命令」变成「审阅软件的操作结果」,一个用户命令之后会出现不在用户思考中的计算机的操作。
归纳能力与「举例子」以往的人机交互过程都是是用户描述具体指令,而当计算机有了「归纳能力」后用户的输入不仅可以是具体的指令还可以是「举例子」
比如最近我们使用 ChatGPT 给绘画提示词分类,按照描述、风格、画质把单词分类,一开始 ChatGPT 的分类并不理想,但是我们给他举几个例子(风格分类有哪些、画质分类有哪些)后, ChatGPT 就能很正确的把提示词分类了。
以往这种任务需要通过重新训练模型来完成,而 AGI 让这种任务能在交互层面就可以实现。 而如何更好的给计算机举例子也是目前用户界面设计中少有研究的问题。
现有产品 + AIAI原生JTBD: 场景- 法律文件摘要和分析*
- 医疗患者记录和分析*
- 客户服务电子邮件和聊天
- 消费者和 B2B 的编码模型
- 与生产力相关的搜索、文档编辑和内容生成*
- 用于公共问答和建议的聊天机器人
- 使用自然语言响应进行搜索
- 职位描述和面试分析等人力资源任务*
- 治疗和辅导
- 虚拟助理*
- 各级教育*
Resource