0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Meta开源I-JEPA,“类人”AI模型

OSC开源社区 来源:OSC开源社区 2023-06-18 17:47 次阅读

Meta宣布推出一个全新的AI 模型Image Joint Embedding Predictive Architecture (I-JEPA),可通过对图像的自我监督学习来学习世界的抽象表征,实现比现有模型更准确地分析和完成未完成的图像。

目前相关的训练代码和模型已开源,I-JEPA 论文则计划在下周的 CVPR 2023 上发表。

根据介绍,I-JEPA 结合了 Meta 首席 AI 科学家 Yann LeCun 所提倡的类人推理方式,帮助避免 AI 生成图像常见的一些错误,比如多出的手指。

I-JEPA 在多项计算机视觉任务上表现出色,且计算效率比其他广泛使用的计算机视觉模型高得多。

I-JEPA 学习的表征也可以用于许多不同的应用程序,而无需进行大量微调。

例如,项目团队在 72 小时内使用 16 个 A100 GPU 训练了一个 632M 参数的视觉转换器模型,I-JEPA 在 ImageNet 上的 low-shot 分类中性能表现最优,每个类只有 12 个标记示例。

其他方法通常需要 2 到 10 倍的 GPU 时间,并且在用相同数量的数据进行训练时错误率更高。 I-JEPA 背后的想法是以更类似于人类一般理解的抽象表示来预测缺失的信息

I-JEPA 使用抽象的预测目标,潜在地消除了不必要的 pixel-level 细节,从而使模型学习更多语义特征。

另一个引导 I-JEPA 产生语义表征的核心设计选择是多块掩码策略。

具体来说,项目团队证明了使用信息丰富的(空间分布的)上下文来预测包含语义信息(具有足够大的规模)的大块的重要性。

e452d002-0c36-11ee-962d-dac502259ad0.png

I-JEPA 中的预测器可以看作是一个原始的(和受限的)世界模型,它能够从部分可观察的上下文中模拟静态图像中的空间不确定性。

更重要的是,这个世界模型是语义的,因为它预测图像中不可见区域的高级信息,而不是 pixel-level 细节。

e46f3b5c-0c36-11ee-962d-dac502259ad0.png

为了解模型捕获的内容,团队还训练了一个随机解码器,将 I-JEPA 预测的表征映射回像素空间。

这种定性评估表明该模型正确地捕获了位置不确定性并生成了具有正确姿势的高级对象部分(例如,狗的头、狼的前腿)。

简而言之,I-JEPA 能够学习对象部分的高级表示,而不会丢弃它们在图像中的局部位置信息。

e49929f8-0c36-11ee-962d-dac502259ad0.pnge4b3ea04-0c36-11ee-962d-dac502259ad0.png





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 转换器
    +关注

    关注

    27

    文章

    8707

    浏览量

    147219
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4741

    浏览量

    128963
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    46002

原文标题:Meta开源I-JEPA,“类人” AI 模型

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    ​在人工智能领域,Meta的最新动作再次引起了全球的关注。今天,我们见证了Meta发布的 Llama 3.3 70B 模型,这是一个开源的人工智能
    的头像 发表于 12-18 16:46 130次阅读
    <b class='flag-5'>Meta</b>重磅发布Llama 3.3 70B:<b class='flag-5'>开源</b><b class='flag-5'>AI</b><b class='flag-5'>模型</b>的新里程碑

    Meta发布新AI模型Meta Motivo,旨在提升元宇宙体验

    Meta在人工智能领域迈出了重要一步。通过这款模型Meta希望能够为用户提供更加自然、流畅的元宇宙交互体验。数字代理在元宇宙中的动作将更加逼真,从而增强用户的沉浸感和参与度。 除了Meta
    的头像 发表于 12-16 10:34 315次阅读

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些
    的头像 发表于 12-14 10:33 189次阅读

    Meta发布Llama 3.2量化版模型

    近日,Meta开源Llama 3.2的1B与3B模型后,再次为人工智能领域带来了新进展。10月24日,Meta正式推出了这两个模型的量化版
    的头像 发表于 10-29 11:05 396次阅读

    联想与Meta合作推出AI Now个人AI智能体

    联想集团近日在美国西雅图举办了年度Tech World大会,会上联想CEO杨元庆与Meta创始兼CEO马克・扎克伯格共同宣布了一项重要合作。双方基于Meta的Llama大模型,推出了
    的头像 发表于 10-17 16:58 554次阅读

    扎克伯格:联想运用Meta Llama大模型打造个人AI助手AI Now

    美国西部时间10月15日,联想集团于美国西雅图盛大举办了一年一度的Tech World大会。会上,联想集团首席执行官杨元庆携手Meta创始兼首席执行官马克·扎克伯格,共同揭晓了一项重大合作成果——基于Meta的Llama大
    的头像 发表于 10-16 14:58 506次阅读

    Meta发布多模态LLAMA 3.2工智能模型

    Meta Platforms近日宣布了一项重要威廉希尔官方网站 突破,成功推出了多模态LLAMA 3.2工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着
    的头像 发表于 09-27 11:44 411次阅读

    Meta发布全新开源模型Llama 3.1

    科技巨头Meta近期震撼发布了其最新的开源人工智能(AI模型——Llama 3.1,这一举措标志着Meta
    的头像 发表于 07-24 18:25 1444次阅读

    Meta即将发布超强开源AI模型Llama 3-405B

    在人工智能领域的激烈竞争中,Meta公司再次掷出重磅炸弹,宣布将于7月23日正式发布其最新力作——Llama 3-405B,一个拥有惊人4050亿参数的开源模型。这一举措不仅标志着Meta
    的头像 发表于 07-18 09:58 999次阅读

    英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta新一代大语言模型Meta
    的头像 发表于 04-28 11:16 640次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms(META.US)推出了
    的头像 发表于 04-19 17:00 841次阅读

    Meta发布新型无监督视频预测模型“V-JEPA

    Meta,这家社交媒体和科技巨头,近日宣布推出一种新型的无监督视频预测模型,名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注,因为它通过抽象性预测生成视频中缺失或模糊的部分来
    的头像 发表于 02-19 11:19 1023次阅读

    Meta发布CodeLlama70B开源模型

    Meta发布CodeLlama70B开源模型 Meta发布了开源模型CodeLlama70B
    的头像 发表于 01-31 10:30 1424次阅读

    Meta发布开源模型Code Llama 70B

    近日,Meta宣布推出了一款新的开源模型Code Llama 70B,这是其“Code Llama家族中体量最大、性能最好的模型版本”。这款新模型
    的头像 发表于 01-31 09:24 932次阅读

    Meta推出最新版AI代码生成模型Code Llama70B

    Meta近日宣布了其最新版本的AI代码生成模型Code Llama70B,并称其为“目前最大、最优秀的模型”。这一更新标志着Meta
    的头像 发表于 01-30 18:21 1452次阅读