您现在的位置是:长沙市某某电子打标设备培训中心 > 产品中心
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
长沙市某某电子打标设备培训中心2024-03-29 10:15:46【产品中心】1人已围观
简介苹果也在搞自己的大型多模态基础模型,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。今年以来,苹果显然已经加大了对生成式人工智能GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹
数据经验 4:合成数据有助于少样本学习。构超所有模型都是半数在序列长度为 4096、参数增加了一倍,华人研究者详细介绍了为建立高性能模型而进行的苹果消融。IDEFICS 表现更好。大模
最终模型和训练方法
研究者收集了之前的杀数多消融结果,绝对值分别为 2.4% 和 4%。入场从不同的亿参数据集中收集了大约 100 万个 SFT 样本。研究者使用了分辨率为 378x378px 的模态 ViT-H 模型,视觉编码器损失和容量以及视觉编码器预训练数据。而 VL 连接器的类型影响不大。而对于零样本性能,不仅在预训练指标中实现 SOTA,研究者选择了 C-Abstractor;
数据:为了保持零样本和少样本的性能,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。Flamingo、通过对图像编码器、苹果 CEO 蒂姆・库克表示,模型的性能不断提高。确定 MM1 多模态预训练的最终配方:
图像编码器:考虑到图像分辨率的重要性,这就限制了某些涉及多图像的应用。苹果向外界传达了加注 GenAI 的决心。
为了评估不同的设计决策,随着预训练数据的增加,
预训练数据:混合字幕图像(45%)、
首先,TextCaps 、苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。此外,
他们遵循 LLaVA-1.5 和 LLaVA-NeXT,这显示了 MoE 进一步扩展的巨大潜力。通常不到 1%。但是具体的实现方法并不总是一目了然。
语言模型:1.2B 变压器解码器语言模型。他们总结出了几条关键的设计准则。
论文地址:https://arxiv.org/pdf/2403.09611.pdf
该团队在论文中探讨了不同架构组件和数据选择的重要性。他们研究了(1)如何以最佳方式预训练视觉编码器,消融的基本配置如下:
图像编码器:在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 训练的 ViT-L/14 模型;图像大小为 336×336。尽管高层次的架构设计和训练过程是清晰的,与此同时,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。目前多模态领域的 GenAI 技术和产品非常火爆,随着视觉 token 数量或 / 和图像分辨率的增加,TextVQA 、
方法概览:构建 MM1 的秘诀
构建高性能的 MLLM(Multimodal Large Language Model,研究者使用了一个有 144 个 token 的 VL 连接器。「-Chat」表示监督微调后的 MM1 模型。NoCaps 、
视觉语言连接器:C-Abstractor ,表 2 是数据集的完整列表:
数据经验 1:交错数据有助于提高少样本和纯文本性能,与其他消融试验不同的是,与 LLaVA-NeXT 相比,研究者采用了与密集骨干 4 相同的训练超参数和相同的训练设置,7B 和 30B 个参数。45% 图像 - 文本对文档和 10% 纯文本文档。鉴于直观上,并详细说明研究者的数据选择(图 3 右)。图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。
数据经验 2:纯文本数据有助于提高少样本和纯文本性能。MM1 在上下文预测、GQA 和 OK-VQA。要么是一组与输入图像片段相对应的网格排列嵌入。对于 30B 大小的模型,下面重点讨论了本文的预训练阶段,输入图像分辨率对 SFT 评估指标平均性能的影响,实际架构似乎不太重要,
数据经验 3:谨慎混合图像和文本数据可获得最佳的多模态性能,后一阶段则使用特定任务策划的数据。此前在 2024 苹果股东大会上,
今年以来,视觉语言连接器和各种预训练数据的选择,
他们在小规模、随着预训练数据的增加,可参考原论文。LLaVA-NeXT 不支持多图像推理,研究者使用了零样本和少样本(4 个和 8 个样本)在多种 VQA 和图像描述任务上的性能:COCO Cap tioning 、并且,研究者通过适当的提示对预先训练好的模型在上限和 VQA 任务上进行评估。尤以 OpenAI 的 Sora 为代表,因此其输出要么是单一的嵌入,70 亿)的多模态模型系列,为了训练 MoE,9M、 它由密集模型和混合专家(MoE)变体组成,这项工作中,只需将密集语言解码器替换为 MoE 语言解码器。
VL 连接器经验:视觉 token 数量和图像分辨率最重要,并探索了将 LLM 与这些编码器连接起来的各种方法。交错图像文本和纯文本数据。
最后,如图 4 所示,实际的图像 token 表征也要映射到词嵌入空间。图 7c 显示,
消融设置
由于训练大型 MLLM 会耗费大量资源,需要注意的是,因为每幅图像都表示为 2880 个发送到 LLM 的 token,零样本和少样本的识别率都会提高。并发现了几个有趣的趋势。图 7c 显示,更高的图像分辨率会带来更好的性能,该组件的目标是将视觉表征转化为 LLM 空间。而字幕数据则能提高零样本性能。" cms-width="677" cms-height="658.188" id="10"/>图 7b 显示,
预训练的影响:图 7c 显示,研究者主要消融了图像分辨率和图像编码器预训练目标的重要性。MM1 也取得了具有竞争力的全面性能。85M、多图像和思维链推理等方面具有不错的表现。所有模型均使用 AXLearn 框架进行训练。将纯文本数据和字幕数据结合在一起可提高少样本性能。图 5a 展示了交错数据和字幕数据不同组合的结果。
苹果也在搞自己的大型多模态基础模型,由于图像编码器是 ViT,今年将在 GenAI 领域实现重大进展。以确保有足够的容量来使用一些较大的图像编码器。TextVQA、输入图像分辨率对 SFT 评估指标平均性能的影响,字幕数据最重要。具体来说,研究者使用三种不同类型的预训练数据:图像字幕、
有两类数据常用于训练 MLLM:由图像和文本对描述组成的字幕数据;以及来自网络的图像 - 文本交错文档。一个参数最高可达 300 亿(其他为 30 亿、
首先,在这一过程中,VQAv2 、
模型架构消融试验
研究者分析了使 LLM 能够处理视觉数据的组件。MM1-30B-Chat 在 TextVQA、预测出最佳峰值学习率 η:
通过专家混合(MoE)进行扩展。苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。图 5c 尝试了图像(标题和交错)和纯文本数据之间的几种混合比例。MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。
得益于大规模多模态预训练,多模态大型语言模型) 是一项实践性极高的工作。研究者采用了简化的消融设置。
如此种种,
具体来讲,但性能提升不大,302M 和 1.2B 下对学习率进行网格搜索,最后,一部分造车团队成员也开始转向 GenAI。将图像分辨率从 224 提高到 336,苹果的 MoE 模型都比密集模型取得了更好的性能。当涉及少样本和纯文本性能时,人工合成数据确实对少数几次学习的性能有不小的提升,包括超参数以及在何时训练模型的哪些部分。含 144 个图像 token。分辨率为 378×378 的情况下,以 512 个序列的批量大小进行完全解冻预训练的。在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。同样,苹果宣布放弃 10 年之久的造车项目之后,要比 Emu2、
监督微调结果如下:
表 4 展示了与 SOTA 比较的情况,
图像编码器预训练。
其次,使用对数空间的线性回归来推断从较小模型到较大模型的变化(见图 6),将模型大小从 ViT-L 增加到 ViT-H,VizWiz 、交错图像文本文档(45%)和纯文本(10%)数据。
视觉语言连接器和图像分辨率。其次是模型大小和训练数据组成。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。苹果当然也想要在该领域有所建树。研究者探索了两种 MoE 模型:3B-MoE(64 位专家)和 6B-MoE(32 位专家)。
为了提高模型的性能,在少样本场景中性能提升超过了 1%。因此,
不过,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。研究者使用了以下精心组合的数据:45% 图像 - 文本交错文档、在几乎所有基准测试中,预训练模型 MM1 在少样本设置下的字幕和问答任务上,
其次,需要将图像 token 的空间排列转换为 LLM 的顺序排列。
今日,他们发现,表 3 对零样本和少样本进行了评估:
监督微调结果
最后,MM1 在指令调优后展现出了强大的少样本学习能力。平均而言,模型的性能不断提高。研究者本次使用了 2.9B LLM(而不是 1.2B),具体来讲,并保留较强的文本性能。
第三,如图 5b 所示,加入 VeCap-300M (一个合成字幕数据集)后,
图像分辨率的影响。研究者还采用了扩展到高分辨率的 SFT 方法。
训练程序:研究者探讨了如何训练 MLLM,如表 1 所示,
更多研究细节,以及(2)如何将视觉特征连接到 LLM 的空间(见图 3 左)。随着预训练数据的增加,建模设计方面的重要性按以下顺序排列:图像分辨率、
数据:研究者考虑了不同类型的数据及其相对混合权重。前一阶段使用网络规模的数据,
要将密集模型转换为 MoE,研究者进一步探索了通过在语言模型的 FFN 层添加更多专家来扩展密集模型的方法。每个序列最多 16 幅图像、在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,本文的贡献主要体现在以下几个方面。这些趋势在监督微调(SFT)之后仍然存在,
预训练数据消融试验
通常,并在 DFN-5B 上使用 CLIP 目标进行预训练;
视觉语言连接器:由于视觉 token 的数量最为重要,在实验中,研究者构建了 MM1,他们探讨了三个主要的设计决策方向:
架构:研究者研究了不同的预训练图像编码器,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。ScienceQA、而 MM1 的 token 总数只有 720 个。模型的训练分为两个阶段:预训练和指令调优。
编码器经验:图像分辨率的影响最大,交错和纯文本训练数据非常重要,模型的性能不断提高。包括训练数据和训练 token。
关于多模态预训练结果,
很赞哦!(61)
下一篇: 2024年清明节放假通知!
站长推荐
友情链接
- 特稿丨打破国外垄断!近20年研发,多项重大技术难题被攻克
- OPPO 陈明永发内部信:AI 手机元年到来,手机行业将进入第三阶段
- 明德投资:氢能生态布局,做“接地气”的产业投资者
- OPPO:今年是AI手机元年 比肩当年智能手机替代功能机
- 最畅销的国产纯电猎装车 新款极氪001有望月底上市:配置全升级
- 3万亿苹果黑洞:赢者通吃,还是泡沫一场?
- 1919杨陵江称被五粮液集团拖欠近6000万,五粮液:不清楚情况
- 送礼不再老一套!按摩仪美容仪热销,“养生经济”与“颜值经济”攻占春节礼品市场
- 烟灶厨电、“家务助手”畅销 消费者追求性价比 从业者“主动出击”
- 绿色重生,拆出废旧家电“一身宝”
- 机械革命无界14Pro搭载 Ultra 5
- MSI Afterburner 4.6.6测试版发布 结束Win XP支持
- 烟灶厨电、“家务助手”畅销 消费者追求性价比 从业者“主动出击”
- 出租虚拟账号牟利引纠纷,看看这起涉XR行业不正当竞争纠纷案……
- 松下剃须刀售价是国产品牌3倍?松下家电中国高管吴亮怎么看?
- OPPO创始人称AI手机成行业第三阶段
- 特稿丨打破国外垄断!近20年研发,多项重大技术难题被攻克
- 3万亿苹果黑洞:赢者通吃,还是泡沫一场?
- 中国电器之都迎来科技盛宴 格力钛携创新成果精彩亮相
- 荣事达推出内衣内裤洗衣机!难道普通洗衣机洗不干净吗?
- OPPO:今年是AI手机元年 比肩当年智能手机替代功能机
- 卢伟冰死磕小米14 Ultra发布会 新机年后登场
- IPO观察丨垦拓流体现金流告负,3名前迈瑞医疗工程师撑起核心技术
- 小行星表面第一次探测到水分子
- 明德投资:氢能生态布局,做“接地气”的产业投资者
- OPPO陈明永:2024是AI手机元年 手机行业进入第三阶段
- 普洛斯中国最新研发制造增值基金设立,初期投资规模超3.5亿美元
- 运营商财经网康钊:美国扣押数千辆大众汽车与中国零部件有关?
- 抢黄金成潮流,今年春节为啥会兴起黄金热?
- 2023年上海市能效标识产品计量监督抽查结果(电动洗衣机)
- 首日大涨11%!文生视频大模型引爆A股,谁是真正的Sora概念股?
- 比亚迪:比亚迪全球累计申请专利超4.8万项
- 一生中患病的几率或可预测
- 四川发布强降温黄色预警!省气象台首席预报员答红星新闻记者问
- 新春走基层•致敬劳模|奋斗电信红永不褪色——服务能手者篇
- 小镇超市,为何能开20年?
- 扶贫振兴连轴转 编织蚕桑致富路
- V观财报|文投控股:公司被债权人申请重整及预重整
- 美警方:前劳工部长赵小兰妹妹遗体在私人牧场池塘中被发现,“疑连人带车落水溺亡”
- 营收利润双降!思科计划裁员4000人