原创 谭婧 亲爱的数据
亲爱的数据:谭婧
(一)观点争锋
大模型的故事里,或许会有句话:
技术路线错误意味着死亡,
在错误的道路上,
跑越快,死越快。
如果你不信,我们一起算笔账,
头部大模型公司,每月算力支出是多少?
如果没有数据中心的话,
每月千万人民币级别算力支出。
不能说得再细了。
竞争到了这个阶段,犯大错意味着什么?
选择技术路线,就是选择生或死。
这些性命攸关的系统性选择,不止做一次,
选不选,什么时候选,选哪种。
反正OpenAI(OAI)已给出了自己的答案。
开始的开始,是由大语言模型拉开大幕,GPT-3.5属于超大规模语言模型。
而随后的GPT-4时刻,
OAI在官网技术博客上透露:
“GPT-4的一个重大提升是开始涉及多模态”。
并且,他们释放了图文部分的“下集预告”。
时过半年,GPT-4Vision它来了,
此前预告,顺手实现。
GPT-4的情况基本可以确定,
而GPT-4Vision没有放出模型结构和论文,
不能武断,但至少可以保守地说做了图和文。
看看名字,都带着Vision。
回顾一笔,多模态大模型在国内从来都不是“稀有物种”。
早在GPT-3.5发布之前,国内早期大模型探索者也是有人选纯语言,有人选多模态,相当于两条技术路线都占了。
选择纯语言技术路线的是华为诺亚方舟实验室的盘古,选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队,紫东太初团队。
只是,早期效果都不好,谁也别笑话谁。
但可以说,中国团队征服多模态的雄心壮志自始有之,无奈效果一般。
回到当下,虽然全球范围语言大模型占多数,
开源社区更是繁茂,
但多模态仍不是“稀有物种”。
例如,国外大团队的作品,GPT-4、Gemini 1.5等;
国外小团队的作品,Fuyu系列,LLaVA系列。
(《》-可点击阅读)
Claude 3更是明确说明和早期版本不同,
是多模态,能够理解文本和照片输入。
就好像某位诺贝尔文学奖获得者告诉记者:
“我的第三部作品,与之前作品截然不同。”
本质上讲,多模态大模型的训练比大语言模型更消耗GPU。
语言大模型的钱花得像流水,
多模态的钱则花得像瀑布。
虽然更费GPU,但问题的关键始终不是GPU够不够多。
而是两条技术路线路泾渭分明。
要么信仰多模态,要么无视多模态。
规模定理,依然奏效。
那么多模态大模型到底是不是一条通向通用人工智能的正确道路?
正方观点:必须是。
可以同时处理来自文本、图像、音频等多个模态的信息,有巨大潜力。市面上也有多位专家实名表态。即使不做多种模态,图文也被很多团队所重视。
反方观点:不是。
反方观点,有悲观,有激烈,有温和。
持悲观态度者认为:
“这是一个没有前途的方向。”
甚至将谷歌没做好的地方归因于此:
“为什么谷歌Gemini的效果一直没有超过OAI,就是因为错误地选择了原生多模态技术路线。”
还有更扎心观点,并且提供了一部分证据:
“OAI肯定已经对视觉信息做了大量的工作,但用处并不大。”
该观点的论据来自GPT-4官网博客中,
在增添了视觉数据之后,GPT-4有视觉信息派比起GPT-4(no vison)没有视觉信息派相比,模拟考试的成绩提高得并不多。
甚至推出一种结论:多模态大模型这种技术路线无法有效提升大模型“智慧”指数?
反方又打了个比方
(我怀疑在讽刺 ,但我没有证据):
你给猴子脖子上挂一个索尼最新型号的单反相机(比喻增加了视觉这种模态),你觉得峨眉山的猴子对世界的理解能力会增加吗?
大语言模型无法利用好视觉模态中的信息,就好比,猴子无法理解复杂专业的相机拍摄的照片所提供的信息。
这个观点认为,姑且不讨论猴子会不会用单反拍照,相机捕捉的图像于猴子而言,只是一堆毫无意义的色彩和形状。
反方温和派的观点则认为,
如果语言模型本身存在不足,那么多模态对齐的效果也不会好。
将语言模型比厨师,而多模态对齐则是一道复杂菜肴。
厨师只有掌握了基本功,才能烹饪大席面。
同样,语言模型也只有在自身能力得到足够提升之后,
才能更好地对齐多模态。
现在语言模型动不动就幻觉,
在其没有做好之前,做原生多模态还为时尚早。
不得不承认,至今为止,
多模态模型确实面临很多困难,
包括还没能将多类信息整合为更深刻的理解,
但工作仍在继续。
现在给结论为时尚早。
是时候把争论带到另一个层面了:
Talk is cheap,show me the detail.
(二)技术细节与原理
对于多模态大模型技术路线来说,
今天的它,不是昨天的它。
似乎没过多久,多模态就经历了一次技术演进。
原有结构有所简化,
比如,图像编码器消失了,适配器也不见踪影。
模型结构的变化,带动了训练阶段的变化。
“仅有解码器的Transformer”这个模块成为核心。
给图像用,也给文字用,类型不同,也不用做区分。
1
怎么就发展出了原生多模态?
从图文检索开始,早期的主要方法就是把提取出来的特征映射到同一个空间,目的是对齐后再做检索。
早期多模态大模型把这套方法“生搬硬套”过来用,
多少会有点“水土不服”。
而且,更重要的是这种提取信息的方式,会造成损耗。
我们在特征提取环节,损失了信息量。
特征提取通常会丢失一些原始信息,例如数据之间的局部关系和全局结构。
而向量表示是一种有效地保留数据信息的文本或图像表示方法。特征提取虽然可以简化数据,但通常会丢失一些原始信息。
信息越保真,模型能学习到的信息越多。向量表示可以保留数据的原始信息更多。而且,向量表示的维数越高,可以保留的信息就越多。
老方法难尽如人意,对此,需专门设计出一套新“技术”。
2
什么样的新技术?
思想是想尽办法把不同的东西“统一处理”。
这个技术有两个拥趸:
1. Fuyu系列模型
Fuyu是“Transformer八子”中的Ashish Vaswani所在的创业公司Adept发布的模型所用的名称。Fuyu-8B模型,参数规模80亿,还没超百亿。
“身形轻巧”却有强大的图像理解能力,能理解照片、图表、PDF、界面UI等,且处理速度很快。
2. 谷歌Gemini模型
第二个Gemini,线索藏在《Gemini 技术报告》的模型架构图里,
也是“仅有解码器的 Transformer 结构” 。
这幅图中Gemini大致有两个主要模块:
第一,融合层,负责理解和融合。
第二,图和文的解码器,负责生成,最终输出,文本或者图像。
做法是,先在预先处理环节,将图像分成小块(Patch),
再将每个小块转成向量(数字)表示。
转化成向量表示的方法有很多,线性投影是其中一种。
这种类似拼图的图片小块,相当于视觉词元。
处理视觉词元的这个过程的工作原理和文本处理中的文本词元类似。
既然能“统一处理”,那就是一个“统一装置”,能投进去图和文的数据。
其他模态可以此类推。
这个处理过程,或者说这个“装置”,就是Tokenizer。
它可是个好东西,我想叫它“化功大法”。
因为可理解为一种化解信息的神功,能将各种类型的数据
(文本,图像或音视频)转化为统一的格式,转换为计算机可以理解的。
这里需要多聊2块5毛钱反方观点,
3
“化功大法”,有哪些难以攻克之处?
向量信息并不是一一对应的,可能会一对多,
而有监督学习解决不好一对多。
模型傻傻分不清楚,
这样情况就糟糕了。
正方观点认为,有了“统一装置”,
数据有了统一的“尺度”。
迈入了原生多模态的门槛。
接下来,通过“统一装置”后,
图文音等各种类型的数据在向量表示这个阶段,
形成了新的词元(Token)序列。
再往下,输入给核心模型(Transformer decoder)。
输入送给之后,相当于这么多不同模态的数据用一个模型把它们全部大锅烩了。
而不是以前分而治之。
这是种全新的核心组件,
甚至说是“替代方案”,也毫不为过。
甚至有正方观点说,该结构已经趋于收敛,也就是说差不多是成熟结构。
讲完技术细节,文章也步入尾声了,
2024年注定是一个声音在热浪中挣扎的年份,
多模态是一个肯定要做的方向,
信仰者和无视者都有意义,
无论是谁都在摸索中前进。
(完)
《我看见了风暴:人工智能基建革命》,
作者:谭婧
原标题:《AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态》
阅读原文