新物网

当前位置:首页 > 互联网

互联网

谷歌推多模态自回归模型Mirasol3B

时间:2023-11-28 21:25:46 小新
要点:Google AI 发布了一种名为 Mirasol3B 的多模态自回归模型,可以学习处理音频、视频和文本等不同的模态数据。Mirasol3B 采用了多模态

要点:

  • Google AI 发布了一种名为 Mirasol3B 的多模态自回归模型,可以学习处理音频、视频和文本等不同的模态数据。

  • Mirasol3B 采用了多模态自回归结构,将时间对齐和上下文模态分开建模,通过交叉注意力机制实现模态之间的信息交换。

  • Mirasol3B 的关键在于其应用了自回归建模到时间对齐的模态中,能够有效地处理长视频输入,并通过一个学习模块 Combiner 来协调视频和音频信号。

11月23日 消息:Google AI 推出的 Mirasol3B 是一种创新的多模态自回归模型,能够处理音频、视频和文本等不同模态的数据。该模型通过采用多模态自回归结构,将时间对齐和上下文模态分开建模,并通过交叉注意力机制实现模态之间的信息交换。

论文地址:https://arxiv.org/abs/2311.05698

Mirasol3B 还应用了自回归建模到时间对齐的模态中,通过智能分块和学习模块 Combiner 协调视频和音频信号,从而有效地处理长视频输入。该模型在各项评估中表现出色,并且相较于更大的模型,在文本生成方面表现出更好的泛化能力。

Mirasol3B 的创新思路和高性能使其成为解决多模态机器学习问题的重要进展,为实际应用提供了强大的多模态理解能力。作为多模态领域的进步标志,Mirasol3B 在不断探索 AI 模型理解世界复杂性的道路上起到了积极的推动作用。