
女同 t Meta 研发新要领:整合话语和扩散 AI 模子,镌汰绸缪量、升迁运算恶果、优化生成图像
发布日期:2024-10-16 05:37 点击次数:71
IT之家 8 月 24 日音书女同 t,Meta AI 公司最新推出了 Transfusion 新要领,不错结合话语模子和图像生成模子,将其整合到调解的 AI 系统中。
IT之家征引团队先容,Transfusion 结合了话语模子在惩处文本等闹翻数据方面的上风,以及扩散模子在生成图像等一语气数据方面的时间。
Meta 讲解说,当今的图像生成系统不竭使用事先锤真金不怕火好的文本编码器来惩处输入的辅导词,然后将其与单独的扩散模子结合起来生成图像。
好多多模态话语模子的责任旨趣与此访佛,它们将事先锤真金不怕火好的文本模子与用于其他模态的专用编码器趋奉起来。
不外 Transfusion 弃取单一、调解的 Transformer 架构,适用于扫数模式,对文本和图像数据进行端到端锤真金不怕火。文本和图像使用不同的亏欠函数:文本使用下一个标识瞻望,图像使用扩散。
为了同期惩处文本和图像,图像被休养成图照片断序列。这么,模子就能在一个序列中同期惩处文本标识和图照片断,稀罕的刺眼光掩码(attention mask)还能让模子捕捉图像里面的相关。
有别于 Meta 现存的 Chameleon(将图像休养成闹翻的标识,然后用惩处文本的形势惩处)等要领,Transfusion 保留了图像的一语气暗示法,幸免了量化形成的信息亏欠。
推行还标明,与同类要领比拟,"会通" 的膨胀恶果更高。在图像生成方面,它获取了与特意模子相同的戒指,但绸缪量却大大减少,令东说念主诧异的是,整合图像数据还升迁了文本惩处时间。
大香蕉在线究诘东说念主员在 2 万亿个文本和图像标识上锤真金不怕火了一个 70 亿参数的模子。该模子在图像生成方面获取了与 DALL-E 2 等闇练系统相同的戒指,同期还能惩处文本。
IT之家附上参考地址
Meta's "Transfusion" blends language models and image generation into one unified model
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
告白声明:文内含有的对外跳转皆集(包括不限于超皆集、二维码、口令等花样),用于传递更多信息女同 t,精辟甄选时辰,戒指仅供参考,IT之家扫数著述均包含本声明。