从信息流交互看LLM

2025年3月14日 16:31:50

原文地址:https://x.com/fi56622380/status/1874011218480087369

文明发展一定是朝着信息自由流通阻碍越小的方向行进,每一次信息流通门槛大幅降低,就会带来一次新科技革命

从信息流通门槛底层逻辑,看LLM这一波浪潮能走多远,想清楚这一点,是我2024年最大收获之一

LLM在信息流视角上实现了两个历史第一次:

  • 人和信息流交互做到双向互动

  • 用token统一了多维度信息

信息流通门槛大幅降低,主要从两个视角来看

第一个视角:

科技的发展换一个视角来说,本质上是人和信息流的交互方式的进化

电脑(操作系统OS)革命,互联网革命,移动互联网革命,从更高抽象层都是对于人和信息流交互的革命

电脑革命,也就是操作系统革命,是人机交互最早的形态。比尔盖茨最初的愿景就是创建一个图形界面GUI,windows就是一种抽象层,让人可以忽略底层的硬件资源管理,构建一个虚幻的可以任意使用硬件的幻觉,用图形化的方式让人们更容易操控硬件(电脑),和电子数据/信息流交互

而人机交互界面本质上是人和信息流交互界面的具象化

互联网革命让地域上的信息交流在物理距离上和成本接近零,大幅降低了人和人创造出的信息流交互的门槛

移动互联网本质上是人机交互界面的迭代,UI的易用性,使用门槛,使用场景渗透,即时性和笨重的电脑比都得到了大幅增强

移动互联网在形式上更方便,比如触摸屏,碎片化时间利用率大幅提升以及视频/音频/LBS的随处采集,再一次降低了人和信息流的交互门槛

为什么所有的公司都需要app?本质上是因为要适应于这个新的UI(人和信息流)交互模式

为什么AR被寄予厚望?就是因为这可能是比手机更高效易用的UI(人和信息流)交互模式

解释了这个视角之后,再来看LLM在这个视角下的历史进程地位

科技历史上看,从人和信息流的有限固定交互(书籍/电脑或静态网页),到人主动去定向低效捞取信息(搜索引擎),到推荐系统去猜人的心思推送信息流方式的交互(社交网站,Twitter),再到人可以主动高效和信息流双向互动(LLM)。

LLM让信息流第一次有了“生命”,有基本的模拟推理能力,agent flow让信息流可以和人进行双向互动(互相启发思考),信息流对人的理解能力,反馈精度提高了太多。任何历史上人类创造的方法/经验,编程方式,都以“活的信息流”和人互动的方式大幅降低了信息流的获取难度

甚至在此基础上信息流的“拟人化”模仿人类调用外部工具处理/分析信息,更贴近理解人的上层意图,让自动化范围更广,本质上是把人交互信息流的抽象层又抬高了一层

这种主动贴近人类意图(agent flow)的像是有生命的拟人化信息流,也是历史上第一次出现

如果说web1.0到web2.0,从静态网页单向展示,变成了人和人之间有了互动,那么AI1.0和AI2.0的区别,就是从推送系统信息流个性化单向展示,变成了人和信息流双向互动


那么AI3.0在信息流视角的下一步加强会是什么?也许就是人和多个独特信息流的多向互动

每个人都是自身独特人生经历所过拟合函数的产物,只有过拟合才能保持作为人的独特优势,人和人的交流之所以有价值,正是因为能取得自己的过拟合函数所无法取得的视角,信息以及方法论,从而修正自身

人 = 过拟合函数

群体智慧不仅仅只是广度互补,更重要的是各个过拟合函数之间,会有新的组合火花碰撞出来,对新组合的价值评估也更为容易和准确,因为A和B排列出来的新组合的价值很可能是在第三个过拟合函数C眼里才得以闪光

而新组合得到价值超于预期的验证之后,就会正式成为创新

所以多个独特过拟合的信息流和人交流,会碰撞出比单个"全拟合"平庸的LLM信息流多的多的灵感

AI4.0在AI3.0基础上的下一步加强是什么?多人(包括数字分身)和多个独特信息流的多向互动

加入多人在实际世界中的经历之后,带来的碰撞和消除信息差会效果更好,因为人作为消费者的视角和实时反馈,可能是会比信息流更新的信息

数字分身是一个非常好的解决方式:从人类历史信息获取门槛的角度,印刷从10万门槛降低到1万,交通发展从1万降低到1千,互联网/搜索从1千降低到100,在线教育从100变成50,chatGPT把门槛50变成了5,数字分身则把门槛进一步降低,打通了历史上信息流通最大的障碍:人与人之间1v1低效的交流,以及场合所限的物理隔阂

功利的信息交流角度,这是一种高效打通人和人之间信息流通的渠道,现在非常多信息和机会其实是很需要人和人之间的互动交流的,这样的1V1互动交流其实是很低效而浪费时间的。

而有了这种新的方式,你去调研一群人的想法,以后不需要一个一个走访了,大家的数字分身交谈完了,来个总结就行

比如未来的AI/agent scale的方向,很可能就是复制人类的文明史:分工带来更好的过拟合结果,执行层和管理层分离带来更高效率,不同领域过拟合的个体交流碰撞才能出来更多的组合火花


第二个视角:

在历史上第一次,LLM打通了不同维度信息之间流动的障碍,把所有的信息,从视觉,听觉,文字,图表用同一个格式统一了起来:token

信息流动门槛在多个维度的大幅降低,为什么会带来无数组合的机会? (组合=创新)

1.互联网上不同信息流的互联快捷性以及易用性,打破学科/产业之间的隔阂更容易,让更多不常见组合成为了可能性,创新的速度更快了起来

就像一种“化学反应”:原本看似不相关或难以结合的元素,如今能被灵活地拆分、重构、重组。每一次的组合都是对社会、商业和技术形态的一次新探索,因而能够催生出数量级增长的创新与应用机会

  1. 不同维度,不同格式的信息流之间,拥有了一个通用超级接口

信息流之间理解力强,降低了interface接口精确性要求(一般接口种类繁多,各有自家定义,格式严格精确性要求高,还要考虑兼容,做到通用性不容易),大大提高了接口的通用性 相当于把各种接口一统江湖,降低了各个子领域技术组合的门槛

当信息可以用统一的方式(token)进行处理,各种原本分散、隔阂或需要大量人工解析的内容就能够更顺畅地打通。不同学科、不同产业之间的数据、知识更容易被整合、交叉引用、自动调用。

比如说,视觉、听觉、文本、图表等都能以统一的“token”形式表示和处理,也让机器人,或者具身智能,成为了可能性:

通用信息流有了"生命",自身的“理解”/“推理”能力,让视觉、听觉、文本信息流之间障碍减少几个数量级,可以在同一套系统中对多模态信号进行综合判断。不仅降低了对各模块“精确接口对接”的依赖,在数据训练上scale up效果也非常好,甚至能接入游戏GPU生成数据scale up

特斯拉的自动驾驶是另外一个证明,端到端的自动驾驶策略在scale up效果上,充分发挥了统一各种信息流的优势


从这两个视角来看,LLM在信息自由流通门槛上大幅下降,没有任何疑问

LLM在这个视角下的历史进程地位,有没有达到了和互联网革命相似的水平?2024年的chatbot水平也许还没有,但在可预见的未来是很有希望能达到的。

就像Sam今天发的那样,未来有更长的context,有更好的memory,造就出更好的agents,也就是更有生命力更拟人(能在open ended task有更好表现)的信息流。

那么这两个视角的信息自由流通门槛的下降,与人交互信息流的抽象层提高程度,未来不是梦

不需要纠结LLM像不像理想化中的完全替代人的AI,不需要纠结LLM不像人类那样有0-shot的推理能力,只要能达到信息自由流通门槛的大幅下降,已经足够引发一轮类似互联网革命的科技浪潮了。

还是那句话,科技的发展,甚至文明的发展,一定是向着信息流的networking交互越来越多,交互门槛越来越低的方向前进,因为这才是探索新组合(也就是创新)更高效的方式,最后活的更好的一定是信息流自由交互门槛更低的文明,这是必然的趋势。

Tags: