艾匀科技算法AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

2024-12-26 20:46:03 欧洲杯直播 facai369

艾匀科技算法AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

原创 谭婧 亲爱的数据 亲爱的数据:谭婧 (一)观点争锋 大模型的故事里,或许会有句话: 技术路线错误意味着死亡, 在错误的道路上, 跑越快,死越快。 如果你不信,我们一起算笔账, 头部大模型公司,每月算力支出是多少? 如果没有数据中心的话, 每月千万人民币级别算力支出。 不能说得再细了。 竞争到了这个阶段,犯大错意味着什么? 选择技术路线,就是选择生或死。 这些性命攸关的系统性选择,不止做一次, 选不选,什么时候选,选哪种。 反正OpenAI(OAI)已给出了自己的答案。 开始的开始,是由大语言模型拉开大幕,GPT-3.5属于超大规模语言模型。 而随后的GPT-4时刻, OAI在官网技术博客上透露: “GPT-4的一个重大提升是开始涉及多模态”。 并且,他们释放了图文部分的“下集预告”。 时过半年,GPT-4Vision它来了, 此前预告,顺手实现。 GPT-4的情况基本可以确定, 而GPT-4Vision没有放出模型结构和论文, 不能武断,但至少可以保守地说做了图和文。 看看名字,都带着Vision。 回顾一笔,多模态大模型在国内从来都不是“稀有物种”。 早在GPT-3.5发布之前,国内早期大模型探索者也是有人选纯语言,有人选多模态,相当于两条技术路线都占了。 选择纯语言技术路线的是华为诺亚方舟实验室的盘古,选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队,紫东太初团队。 只是,早期效果都不好,谁也别笑话谁。 但可以说,中国团队征服多模态的雄心壮志自始有之,无奈效果一般。 回到当下,虽然全球范围语言大模型占多数, 开源社区更是繁茂, 但多模态仍不是“稀有物种”。 例如,国外大团队的作品,GPT-4、Gemini 1.5等; 国外小团队的作品,Fuyu系列,LLaVA系列。 (《》-可点击阅读) Claude 3更是明确说明和早期版本不同, 是多模态,能够理解文本和照片输入。 就好像某位诺贝尔文学奖获得者告诉记者: “我的第三部作品,与之前作品截然不同。” 本质上讲,多模态大模型的训练比大语言模型更消耗GPU。 语言大模型的钱花得像流水, 多模态的钱则花得像瀑布。 虽然更费GPU,但问题的关键始终不是GPU够不够多。 而是两条技术路线路泾渭分明。 要么信仰多模态,要么无视多模态。 规模定理,依然奏效。 那么多模态大模型到底是不是一条通向通用人工智能的正确道路? 正方观点:必须是。 可以同时处理来自文本、图像、音频等多个模态的信息,有巨大潜力。市面上也有多位专家实名表态。即使不做多种模态,图文也被很多团队所重视。 反方观点:不是。 反方观点,有悲观,有激烈,有温和。 持悲观态度者认为: “这是一个没有前途的方向。” 甚至将谷歌没做好的地方归因于此: “为什么谷歌Gemini的效果一直没有超过OAI,就是因为错误地选择了原生多模态技术路线。” 还有更扎心观点,并且提供了一部分证据: “OAI肯定已经对视觉信息做了大量的工作,但用处并不大。” 该观点的论据来自GPT-4官网博客中, 在增添了视觉数据之后,GPT-4有视觉信息派比起GPT-4(no vison)没有视觉信息派相比,模拟考试的成绩提高得并不多。 甚至推出一种结论:多模态大模型这种技术路线无法有效提升大模型“智慧”指数? 反方又打了个比方 (我怀疑在讽刺 ,但我没有证据): 你给猴子脖子上挂一个索尼最新型号的单反相机(比喻增加了视觉这种模态),你觉得峨眉山的猴子对世界的理解能力会增加吗? 大语言模型无法利用好视觉模态中的信息,就好比,猴子无法理解复杂专业的相机拍摄的照片所提供的信息。 这个观点认为,姑且不讨论猴子会不会用单反拍照,相机捕捉的图像于猴子而言,只是一堆毫无意义的色彩和形状。 反方温和派的观点则认为, 如果语言模型本身存在不足,那么多模态对齐的效果也不会好。 将语言模型比厨师,而多模态对齐则是一道复杂菜肴。 厨师只有掌握了基本功,才能烹饪大席面。 同样,语言模型也只有在自身能力得到足够提升之后, 才能更好地对齐多模态。 现在语言模型动不动就幻觉, 在其没有做好之前,做原生多模态还为时尚早。 不得不承认,至今为止, 多模态模型确实面临很多困难, 包括还没能将多类信息整合为更深刻的理解, 但工作仍在继续。 现在给结论为时尚早。 是时候把争论带到另一个层面了: Talk is cheap,show me the detail. (二)技术细节与原理 对于多模态大模型技术路线来说, 今天的它,不是昨天的它。 似乎没过多久,多模态就经历了一次技术演进。 原有结构有所简化, 比如,图像编码器消失了,适配器也不见踪影。 模型结构的变化,带动了训练阶段的变化。 “仅有解码器的Transformer”这个模块成为核心。 给图像用,也给文字用,类型不同,也不用做区分。 1 怎么就发展出了原生多模态? 从图文检索开始,早期的主要方法就是把提取出来的特征映射到同一个空间,目的是对齐后再做检索。 早期多模态大模型把这套方法“生搬硬套”过来用, 多少会有点“水土不服”。 而且,更重要的是这种提取信息的方式,会造成损耗。 我们在特征提取环节,损失了信息量。 特征提取通常会丢失一些原始信息,例如数据之间的局部关系和全局结构。 而向量表示是一种有效地保留数据信息的文本或图像表示方法。特征提取虽然可以简化数据,但通常会丢失一些原始信息。 信息越保真,模型能学习到的信息越多。向量表示可以保留数据的原始信息更多。而且,向量表示的维数越高,可以保留的信息就越多。 老方法难尽如人意,对此,需专门设计出一套新“技术”。 2 什么样的新技术? 思想是想尽办法把不同的东西“统一处理”。 这个技术有两个拥趸: 1. Fuyu系列模型 Fuyu是“Transformer八子”中的Ashish Vaswani所在的创业公司Adept发布的模型所用的名称。Fuyu-8B模型,参数规模80亿,还没超百亿。 “身形轻巧”却有强大的图像理解能力,能理解照片、图表、PDF、界面UI等,且处理速度很快。 2. 谷歌Gemini模型 第二个Gemini,线索藏在《Gemini 技术报告》的模型架构图里, 也是“仅有解码器的 Transformer 结构” 。 这幅图中Gemini大致有两个主要模块: 第一,融合层,负责理解和融合。 第二,图和文的解码器,负责生成,最终输出,文本或者图像。 做法是,先在预先处理环节,将图像分成小块(Patch), 再将每个小块转成向量(数字)表示。 转化成向量表示的方法有很多,线性投影是其中一种。 这种类似拼图的图片小块,相当于视觉词元。 处理视觉词元的这个过程的工作原理和文本处理中的文本词元类似。 既然能“统一处理”,那就是一个“统一装置”,能投进去图和文的数据。 其他模态可以此类推。 这个处理过程,或者说这个“装置”,就是Tokenizer。 它可是个好东西,我想叫它“化功大法”。 因为可理解为一种化解信息的神功,能将各种类型的数据 (文本,图像或音视频)转化为统一的格式,转换为计算机可以理解的。 这里需要多聊2块5毛钱反方观点, 3 “化功大法”,有哪些难以攻克之处? 向量信息并不是一一对应的,可能会一对多, 而有监督学习解决不好一对多。 模型傻傻分不清楚, 这样情况就糟糕了。 正方观点认为,有了“统一装置”, 数据有了统一的“尺度”。 迈入了原生多模态的门槛。 接下来,通过“统一装置”后, 图文音等各种类型的数据在向量表示这个阶段, 形成了新的词元(Token)序列。 再往下,输入给核心模型(Transformer decoder)。 输入送给之后,相当于这么多不同模态的数据用一个模型把它们全部大锅烩了。 而不是以前分而治之。 这是种全新的核心组件, 甚至说是“替代方案”,也毫不为过。 甚至有正方观点说,该结构已经趋于收敛,也就是说差不多是成熟结构。 讲完技术细节,文章也步入尾声了, 2024年注定是一个声音在热浪中挣扎的年份, 多模态是一个肯定要做的方向, 信仰者和无视者都有意义, 无论是谁都在摸索中前进。 (完) 《我看见了风暴:人工智能基建革命》, 作者:谭婧 原标题:《AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态》 阅读原文
搜索
最近发表
标签列表