Meta推出V-JEPA模型利用AI高效补充受遮蔽部分

返回首页

最后编辑时间：2024-02-22 14:05:45 来源：未知作者：未知阅读量：未知

　　据介绍，相关 JEPA 架构及 I-JEPA / V-JPA 模型主打“预测能力”，号称可以以“人类理解”的方式，利用抽象性高效预测生成图片 / 视频中被遮蔽的部分。

　　IT之家注意到，研究人员使用一系列经过遮蔽处理的特定视频训练 I-JEPA / V-JEPA 模型，研究人员要求模型利用“抽象方式”填充视频中缺失的内容，从而让模型在填充间学习场景，进一步预测未来的事件或动作，进而达到对世界更深层次的理解。

　　研究人员表示，这种训练方法能够让模型专注于影片的高层次概念，而“不会钻牛角尖处理下游任务不重要的细节”，研究人员举例“人类观看内含树木的影片时，不会特别关心树叶的运动方式”，因此采用这种抽象概念的模型，相对于业界竞品效率更佳。

　　研究人员同时提到，V-JEPA 采用一种名为“Frozen Evaluations”的设计结构，即“模型在预训练之后，核心部分不会再改变”，因此只需要在模型之上添加小型专门层即可适应新任务，具有更高普适性。返回搜狐，查看更多

(责任编辑：管理)

随机内容