0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

放下你的PhotoShop!无限图像编辑已开源!

3D视觉工坊 来源:3D视觉工坊 2023-12-10 10:09 次阅读

0. 笔者个人体会

最近文本到图像的工作很火,生成的图像也非常真实。但还有个问题,现有工作效率比较低,往往只能接受一次text指令,再修改就要重新输入text重新生成,可能会影响原本的语义信息,这样导出的图像和最初图像可能差距甚远。

今天笔者将为大家分享一项最新开源的工作LEDITS++,可以一次输入无限多的编辑指令,一次性生成真实图像!而且LEDITS++是无参数方案,不需要微调和优化。不得不感慨AI发展之迅速,距离人们真实生活也越来越近了。

下面一起来阅读一下这项工作,文末附论文和代码链接~

1. 效果展示

先看一下具体效果,输入具体指令就可以直接产生对应效果。PS要想在几十秒内达到同等效果应该是有点困难。

27892dc0-96ad-11ee-8b88-92fbcf53809c.png

LEDITS++很强调编辑前后的图像一致性,也就是仅修改图像的相关区域,保持原始图像的语义信息。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

27a9e4fc-96ad-11ee-8b88-92fbcf53809c.png

代码已经开源了,官方主页也开放了交互式demo,感兴趣的读者可以上传自己的图像和文本指令尝鲜一下效果。

2. 具体原理是什么?

LEDITS++可以分为三个部分:(1)有效的图像反转;(3)多功能文本编辑;(3)图像变化的语义基础。

我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提出一种有效的反演方法,大大减少所需的步骤,同时降低重建误差。当将反向扩散过程公式化为SDE时,DDPM可以被视为一阶SDE解算器。使用高阶微分方程解算器可以更有效地解算,因此作者推导出一种新的更快威廉希尔官方网站 ------DPM-solver++反演。

27cde406-96ad-11ee-8b88-92fbcf53809c.png

在创建重建序列之后,可以通过一组编辑指令操纵噪声来编辑图像。根据有条件和无条件估计,作者分别设计了一个专门的引导项,既反映了编辑的方向,又最大化了对所需编辑效果的细粒度控制。

27ef003c-96ad-11ee-8b88-92fbcf53809c.png

最后,LEDITS++还包括一个Mask项,由交叉注意层生成的Mask和噪声估计导出的Mask取交集计算得到。Mask可以捕捉与编辑概念相关的图像区域,对于多次编辑特别有效。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

2815c21c-96ad-11ee-8b88-92fbcf53809c.png

3. 和其他SOTA方法对比如何?

不同编辑方法的指令对齐和图像相似度权衡的比较,侧重CLIP得分(越高越好)与LPIPS相似度(越低越好),也就是图中越靠近左上角效果越好。

282ecd02-96ad-11ee-8b88-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1083

    浏览量

    40449
  • AI
    AI
    +关注

    关注

    87

    文章

    30758

    浏览量

    268902
  • 开源
    +关注

    关注

    3

    文章

    3323

    浏览量

    42473

原文标题:放下你的PhotoShop!无限图像编辑已开源!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    高倍金相自动测量显微镜无限远光学系统

    高倍金相自动测量显微镜无限远光学系统在无限远处形成图像,是通过在物镜与目镜之间的主镜筒中设置镜筒透镜,构建了一个能够形成中间图像的光学系统。并可以灵活添加各种辅助组件,丰富了显微镜的功
    的头像 发表于 12-14 20:31 191次阅读
    高倍金相自动测量显微镜<b class='flag-5'>无限</b>远光学系统

    开源ISP(Infinite-ISP)介绍

    公开,都是给一堆函数自己调用调试。因为厂商将 ISP 算法视为保持市场竞争力的独特秘诀。虽然之前介绍了很多开源ISP项目(优秀的 Verilog/FPGA开源项目介绍(二十六)- ISP (图像信号处理)),这些
    的头像 发表于 11-18 10:21 402次阅读
    <b class='flag-5'>开源</b>ISP(Infinite-ISP)介绍

    字节发布SeedEdit图像编辑模型

    近日,字节跳动公司在其豆包大模型团队的官方网站上,正式公布了其最新的通用图像编辑模型——SeedEdit。这款创新性的图像编辑模型,为用户提供了前所未有的便捷图像编辑体验。 据官方介绍
    的头像 发表于 11-12 10:43 250次阅读

    图像采集卡的接口类型有哪些?

    图像采集卡又称图像捕获卡,是一种能获取数字视频图像信息并进行存储和播放的硬件设备。它的作用是将图像信号采集到计算机中,以数据文件的形式保存在硬盘上,是
    的头像 发表于 10-24 17:07 172次阅读
    <b class='flag-5'>图像</b>采集卡的接口类型有哪些?

    vim编辑器如何使用

    Vim编辑器是一个功能强大的文本编辑器,它基于Vi进行改进,并增加了许多新特性。Vim编辑器的使用主要涉及其不同的工作模式及相应操作。以下是Vim编辑器的基本使用方法: 一、Vim
    的头像 发表于 08-30 14:58 429次阅读

    Matepad pro12.2 上市半个月,但是还没有在开源网站看到该项目的开源信息,违背开源精神

    Matepad pro12.2 上市半个月,本人自己也购买了同款12+256的pad,想要同步学习下这款pad的一些体验还不错的功能点,但是目前为止还没有在开源网站看到该项目的开源信息,也查询不到
    发表于 08-27 17:25

    Adobe在Illustrator和Photoshop设计软件中引入新工具和生成性AI功能

    Adobe正在其Illustrator和Photoshop设计软件中引入一些新工具和生成性AI功能,旨在帮助加快创意工作流程。Illustrator最引人注目的更新来自Adobe最新的Firefly
    的头像 发表于 07-29 17:10 834次阅读

    esp32无限重启的原因?

    esp32无限重启,重启记录显示 Software reset due to exception/panic, 有谁知道这是什么原因重启吗?
    发表于 06-25 08:13

    微软AI新成果:将不可编辑PDF转化为可编辑文档

    市面现有相关软件虽能将PDF转为可编辑版,但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》,其独特之处在于运用AI威廉希尔官方网站 保持了字体、色彩、布局及图像格式等视
    的头像 发表于 05-30 10:11 678次阅读

    放下手中的游戏鼠标 | 小白测功耗

    上一期我们测试了合宙办公室常用的办公鼠标,这一期我们测试游戏鼠标!小白对游戏鼠标的刻板印象:发光/狂拽酷炫但这次选的两款热门游戏鼠标却不一样外表低调,握感很棒(罗技G304是purplecloud姐姐的哦让我们一起来看看吧!1测前主要准备本次测评选取的两款游戏鼠标包括如下品牌型号:罗技G304、雷蛇炼狱蝰蛇V2X
    的头像 发表于 05-13 17:09 1458次阅读
    <b class='flag-5'>放下</b><b class='flag-5'>你</b>手中的游戏鼠标 | 小白测功耗

    苹果拟提升照片应用AI威廉希尔官方网站 ,以实现Photoshop级别编辑功能

    苹果官方网站于今日更换了“起飞吧”页面LOGO,用户可通过鼠标涂抹掉部分或整个标识。此举被视为同时为推广新款Apple Pencil及增强后的编辑功能进行宣传。
    的头像 发表于 05-07 17:18 703次阅读

    开放原子开源大赛—基于OpenHarmony的团结引擎应用开发赛正式启动!

    所有开发者开放,只要完成注册并认证,即可报名参与。将有机会深入实践OpenHarmony开源项目与Unity中国团结引擎,更有机会赢取丰厚的奖励与荣誉激励。赛事共设立了62个奖项,总奖金池高达45万元
    发表于 03-13 10:45

    谷歌模型怎么用PS打开文件和图片

    )或ONNX模型(.onnx)等。这些模型文件是二进制的,并且是为特定的机器学习框架设计的,而不是为图像编辑软件如PS设计的。
    的头像 发表于 02-29 18:25 1436次阅读

    谷歌模型怎么PS打开文件格式不变

    要将谷歌模型与Photoshop结合使用,并保持文件格式不变,这通常涉及将谷歌模型生成的图像或图形导入到Photoshop中进行进一步编辑或处理。
    的头像 发表于 02-29 18:09 861次阅读

    三星AI手机有多神?引入智能显示,自动调节亮度、颜色…

    Galaxy S24系列配备了Galaxy AI(设备端人工智能)以及三星Gauss(高斯)等生成式人工智能。换句话说,关键功能可以通过设备上的人工智能来解决,而无需联系外部服务器。生成式人工智能支持需要更多计算的任务,例如高级搜索或图像编辑
    的头像 发表于 01-19 15:49 1216次阅读