【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
- 厂商稿件
- 2024-10-15 19:28
近期,阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
文本到图像合成 (TIS) 已成为计算机视觉与自然语言处理 (NLP) 交叉领域的重要前沿,其能够根据文本描述生成视觉上引人注目的图像。基于文本引导的图像编辑任务使用户能够通过简单的文字描述来指导图像的修改,无需使用复杂的图像编辑软件或具备专业知识即可实现编辑效果。其中 Traing-free 的文本引导图像编辑 (TIE) 已成为一个重要的研究方向,利用预训练的 TIS 模型,直接通过文本提示来编辑图像,用户可以直接输入文本,对图像进行多种编辑操作,包括颜色变化、物体的添加或去除、风格转换等。这种交互式编辑方式显著降低了图像编辑的门槛,使得创意表达变得更加便捷和个性化。
尽管当前的 TIE 算法取得了显著进展,但它们仍存在一些局限性。如图1所示,现有 TIE 方法在编辑多个对象时面临挑战。多对象编辑的复杂性会导致编辑对象丢失(例如,丢失一个苹果)、属性缺失(例如,斑点)和背景保留不完整等问题。
图1. 图像编辑的效果对比以及我们提出方法的结果
在本文中,我们提出了 VICTORIA 编辑算法,它利用语言知识来解决在对象场景编辑中因缺失目标(如对象、属性和背景)而导致的问题。VICTORIA 通过分析输入编辑文本中单词之间的依存关系,并将这种关系反映在注意层的中间表示中,从而修正并生成目标图像。图2展示了 VICTORIA 的整体框架。首先,我们通过控制自注意机制来确保原始图像和编辑后图像之间的空间一致性。其次,VICTORIA 分析输入编辑文本中单词之间的依存关系,并在生成目标编辑图像的过程中主动干预交叉注意力图,从而提升目标编辑区域的生成结果。最后,VICTORIA 通过交叉注意图进行图像部分掩码,有效保留原始图像中无需被编辑的区域。
图 2:VICTORIA 在对图像进行编辑的过程示意图
VICTORIA 伪代码如下:
图 3:VICTORIA 在合成图像编辑和真实图像编辑场景下的伪代码
图4展示了 VICTORIA 的编辑结果,它成功地修改了原始图像中多个物体的各种属性、风格、场景和类别。
图 4:VICTORIA编辑结果示例
图5对比展示了 VICTORIA 与其他一些 SOTA 图像编辑技术的效果。无论是对真实照片还是合成图像,VICTORIA 均展现出了高效的编辑能力。在所有的案例中,VICTORIA 都能够实现与描述提示高度一致的精细编辑,同时最大限度地保留了原图的结构细节。
图 5:VICTORIA与其他编辑方法的对比
为了更好地服务开源社区,这一算法的源代码已经贡献在自然语言处理算法框架 EasyNLP 中,欢迎各界从业人员和研究者使用。
阿里云人工智能平台 PAI 长期招聘正式员工/实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。
论文信息
论文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing
论文作者:刘冰雁、汪诚愚、黄俊、贾奎
论文pdf链接:https://openreview.net/pdf?id=efTur2naAS
- 算法
相关文章
资讯
- 6天前
讯飞智作超拟人数字人功能全面开放,开启全民定制新潮流
- 2周前
探索未来之路 激发AI创新 “天翼云·息壤杯”高校AI大赛北京区域赛开赛
- 2周前
亚马逊向Anthropic追加40亿美元投资 加速人工智能创新与应用
- 2周前
科大讯飞:拟推首期员工持股计划
- 3周前
彰显青年风采 传承科学家精神 中国科技青年风采荟在浙江温州举行
- 4周前
2024AI+研发数字(AiDD)峰会深圳站圆满收官!
- 1个月前
200余支队伍蓉城“百模论剑”,“人工智能+”全国性赛事报名倒计时3天
- 1个月前
三个老发明家献给盛世的礼物---“录味机”
- 1个月前
颠覆传统 新味十足 ——2024首届海南智能餐饮烹饪大赛成功举办
- 1个月前
首届中国智能锁科技创新大会:德施曼核心科技引领行业,发起科创基金
- 1个月前
ODC24 AI服务生态分论坛:全新智慧服务引擎 带动服务分发增长
- 1个月前
2024 OPPO开发者大会召开,以技术为基石共建AI智能体新生态
- 2个月前
中国移动发布“四驱两翼” 低空经济高质量发展能力体系
- 2个月前
品胜闪耀 GITEX Global 2024:国民 3C 品牌在中东迪拜的卓越之旅
- 2个月前
2024中国移动全球合作伙伴大会盛大启幕 政企领域前沿创新成果成为焦点
原创
荐读
-
5G+AR加持 晨星机器人掀起“智能化+人机交互”制造新趋势
2021世界制造业大会于11月22日在合肥落下帷幕。为期四天的大会中,作为向世界展示智能制造全面能力的窗口,联想展示了一系列让人惊喜的创新产品。现场展示的ThinkPad X1 Fold整体重量仅有1公斤,折叠起来之后的厚度大约为24毫米。当保持半开状态时,可以像拿本书一样握住,并且能同时运行两个应用程序。使用固定在中间的键盘之后,瞬间变...
-
智能手机竞争中失败,日本在联网汽车领域举步维艰
据外媒报道,在制造带有数字联网服务的汽车的竞争中,丰田汽车和日产汽车面临着被本土市场拖累的风险。与美国和欧洲的汽车消费者不同的是,日本消费者不愿意为这些联网功能和服务买单。结果就是:日本只有10%的汽车...
-
2020年河南省将推广应用3万台工业机器人
到2020年,推广应用3万台工业机器人,建设1000条智能生产线、300个智能车间、150个智能工厂……4月16日,在2018两岸智能装备制造郑州论坛上,河南省工信委发布了《2017年河南省智能制造白皮书》,河南智能制造的2020...