谷歌 DeepMind 推出 Mirasol3B 模型,旨在提高对长视频输入的理解能力

  • A+
所属分类:7*24 快讯

chatGPT账号

据 VentureBeat 报道,本周二,谷歌 DeepMind 披露了其人工智能研究的一项重大进展,提出了一个新的自回归模型,旨在提高对长视频输入的理解能力。这个被命名为“Mirasol3B”的新模型展示了一种突破性的多模态学习方法,能以更综合、更高效的方式处理音频、视频和文本数据。

谷歌研究院的软件工程师 Isaac Noble 和谷歌 DeepMind 的研究科学家 Anelia Angelova 表示,构建多模态模型的挑战在于模态的异质性。他们解释说:“有些模态可能在时间上很同步(如音频、视频),但与文本不一致。”“此外,视频和音频信号的数据量比文本大得多,因此在多模态模型中将它们结合在一起时,视频和音频往往无法被完全利用,需要进行不成比例的压缩。对于较长的视频输入而言,这一问题更加严重。”针对这种复杂性,谷歌的 Mirasol3 B 模型将多模态建模分解为单独的重点自回归模型,根据模态的特性处理输入。

免责声明

发文时比特币价格:$38249

免责声明:

本文不代表路远网立场,且不构成投资建议,请谨慎对待。用户由此造成的损失由用户自行承担,与路远网没有任何关系;

路远网不对网站所发布内容的准确性,真实性等任何方面做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,路远网对项目的真实性,准确性等任何方面均不做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,路远网不对其构成任何投资建议,用户由此造成的损失由用户自行承担,与路远网没有任何关系;

路远区块链研究院声明:路远区块链研究院内容由路远网发布,部分来源于互联网和行业分析师投稿收录,内容为路远区块链研究院加盟专职分析师独立观点,不代表路远网立场。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的电报
  • 这是我的电报扫一扫
  • weinxin
chatGPT账号
路远

发表评论

您必须登录才能发表评论!