艾匀科技算法AI大模型技术路线之争：你可以信仰多模态，也可以无视多模态

2024-12-26 20:46:03 欧洲杯直播 facai369

1|0条评论

原创谭婧亲爱的数据亲爱的数据：谭婧（一）观点争锋大模型的故事里，或许会有句话：技术路线错误意味着死亡，在错误的道路上，跑越快，死越快。如果你不信，我们一起算笔账，头部大模型公司，每月算力支出是多少？如果没有数据中心的话，每月千万人民币级别算力支出。不能说得再细了。竞争到了这个阶段，犯大错意味着什么？选择技术路线，就是选择生或死。这些性命攸关的系统性选择，不止做一次，选不选，什么时候选，选哪种。反正OpenAI（OAI）已给出了自己的答案。开始的开始，是由大语言模型拉开大幕，GPT-3.5属于超大规模语言模型。而随后的GPT-4时刻， OAI在官网技术博客上透露： “GPT-4的一个重大提升是开始涉及多模态”。并且，他们释放了图文部分的“下集预告”。时过半年，GPT-4Vision它来了，此前预告，顺手实现。 GPT-4的情况基本可以确定，而GPT-4Vision没有放出模型结构和论文，不能武断，但至少可以保守地说做了图和文。看看名字，都带着Vision。回顾一笔，多模态大模型在国内从来都不是“稀有物种”。早在GPT-3.5发布之前，国内早期大模型探索者也是有人选纯语言，有人选多模态，相当于两条技术路线都占了。选择纯语言技术路线的是华为诺亚方舟实验室的盘古，选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队，紫东太初团队。只是，早期效果都不好，谁也别笑话谁。但可以说，中国团队征服多模态的雄心壮志自始有之，无奈效果一般。回到当下，虽然全球范围语言大模型占多数，开源社区更是繁茂，但多模态仍不是“稀有物种”。例如，国外大团队的作品，GPT-4、Gemini 1.5等；国外小团队的作品，Fuyu系列，LLaVA系列。（《》-可点击阅读） Claude 3更是明确说明和早期版本不同，是多模态，能够理解文本和照片输入。就好像某位诺贝尔文学奖获得者告诉记者： “我的第三部作品，与之前作品截然不同。” 本质上讲，多模态大模型的训练比大语言模型更消耗GPU。语言大模型的钱花得像流水，多模态的钱则花得像瀑布。虽然更费GPU，但问题的关键始终不是GPU够不够多。而是两条技术路线路泾渭分明。要么信仰多模态，要么无视多模态。规模定理，依然奏效。那么多模态大模型到底是不是一条通向通用人工智能的正确道路? 正方观点：必须是。可以同时处理来自文本、图像、音频等多个模态的信息，有巨大潜力。市面上也有多位专家实名表态。即使不做多种模态，图文也被很多团队所重视。反方观点：不是。反方观点，有悲观，有激烈，有温和。持悲观态度者认为： “这是一个没有前途的方向。” 甚至将谷歌没做好的地方归因于此： “为什么谷歌Gemini的效果一直没有超过OAI，就是因为错误地选择了原生多模态技术路线。” 还有更扎心观点，并且提供了一部分证据： “OAI肯定已经对视觉信息做了大量的工作，但用处并不大。” 该观点的论据来自GPT-4官网博客中，在增添了视觉数据之后，GPT-4有视觉信息派比起GPT-4（no vison）没有视觉信息派相比，模拟考试的成绩提高得并不多。甚至推出一种结论：多模态大模型这种技术路线无法有效提升大模型“智慧”指数？反方又打了个比方（我怀疑在讽刺，但我没有证据）：你给猴子脖子上挂一个索尼最新型号的单反相机（比喻增加了视觉这种模态），你觉得峨眉山的猴子对世界的理解能力会增加吗？大语言模型无法利用好视觉模态中的信息，就好比，猴子无法理解复杂专业的相机拍摄的照片所提供的信息。这个观点认为，姑且不讨论猴子会不会用单反拍照，相机捕捉的图像于猴子而言，只是一堆毫无意义的色彩和形状。反方温和派的观点则认为，如果语言模型本身存在不足，那么多模态对齐的效果也不会好。将语言模型比厨师，而多模态对齐则是一道复杂菜肴。厨师只有掌握了基本功，才能烹饪大席面。同样，语言模型也只有在自身能力得到足够提升之后，才能更好地对齐多模态。现在语言模型动不动就幻觉，在其没有做好之前，做原生多模态还为时尚早。不得不承认，至今为止，多模态模型确实面临很多困难，包括还没能将多类信息整合为更深刻的理解，但工作仍在继续。现在给结论为时尚早。是时候把争论带到另一个层面了： Talk is cheap，show me the detail. （二）技术细节与原理对于多模态大模型技术路线来说，今天的它，不是昨天的它。似乎没过多久，多模态就经历了一次技术演进。原有结构有所简化，比如，图像编码器消失了，适配器也不见踪影。模型结构的变化，带动了训练阶段的变化。 “仅有解码器的Transformer”这个模块成为核心。给图像用，也给文字用，类型不同，也不用做区分。 1 怎么就发展出了原生多模态？从图文检索开始，早期的主要方法就是把提取出来的特征映射到同一个空间，目的是对齐后再做检索。早期多模态大模型把这套方法“生搬硬套”过来用，多少会有点“水土不服”。而且，更重要的是这种提取信息的方式，会造成损耗。我们在特征提取环节，损失了信息量。特征提取通常会丢失一些原始信息，例如数据之间的局部关系和全局结构。而向量表示是一种有效地保留数据信息的文本或图像表示方法。特征提取虽然可以简化数据，但通常会丢失一些原始信息。信息越保真，模型能学习到的信息越多。向量表示可以保留数据的原始信息更多。而且，向量表示的维数越高，可以保留的信息就越多。老方法难尽如人意，对此，需专门设计出一套新“技术”。 2 什么样的新技术？思想是想尽办法把不同的东西“统一处理”。这个技术有两个拥趸： 1. Fuyu系列模型 Fuyu是“Transformer八子”中的Ashish Vaswani所在的创业公司Adept发布的模型所用的名称。Fuyu-8B模型，参数规模80亿，还没超百亿。 “身形轻巧”却有强大的图像理解能力，能理解照片、图表、PDF、界面UI等，且处理速度很快。 2. 谷歌Gemini模型第二个Gemini，线索藏在《Gemini 技术报告》的模型架构图里，也是“仅有解码器的 Transformer 结构” 。这幅图中Gemini大致有两个主要模块：第一，融合层，负责理解和融合。第二，图和文的解码器，负责生成，最终输出，文本或者图像。做法是，先在预先处理环节，将图像分成小块（Patch），再将每个小块转成向量（数字）表示。转化成向量表示的方法有很多，线性投影是其中一种。这种类似拼图的图片小块，相当于视觉词元。处理视觉词元的这个过程的工作原理和文本处理中的文本词元类似。既然能“统一处理”，那就是一个“统一装置”，能投进去图和文的数据。其他模态可以此类推。这个处理过程，或者说这个“装置”，就是Tokenizer。它可是个好东西，我想叫它“化功大法”。因为可理解为一种化解信息的神功，能将各种类型的数据（文本，图像或音视频）转化为统一的格式，转换为计算机可以理解的。这里需要多聊2块5毛钱反方观点， 3 “化功大法”，有哪些难以攻克之处？向量信息并不是一一对应的，可能会一对多，而有监督学习解决不好一对多。模型傻傻分不清楚，这样情况就糟糕了。正方观点认为，有了“统一装置”，数据有了统一的“尺度”。迈入了原生多模态的门槛。接下来，通过“统一装置”后，图文音等各种类型的数据在向量表示这个阶段，形成了新的词元（Token）序列。再往下，输入给核心模型（Transformer decoder）。输入送给之后，相当于这么多不同模态的数据用一个模型把它们全部大锅烩了。而不是以前分而治之。这是种全新的核心组件，甚至说是“替代方案”，也毫不为过。甚至有正方观点说，该结构已经趋于收敛，也就是说差不多是成熟结构。讲完技术细节，文章也步入尾声了， 2024年注定是一个声音在热浪中挣扎的年份，多模态是一个肯定要做的方向，信仰者和无视者都有意义，无论是谁都在摸索中前进。（完）《我看见了风暴：人工智能基建革命》，作者：谭婧原标题：《AI大模型技术路线之争：你可以信仰多模态，也可以无视多模态》阅读原文