阿里巴巴发布 Qwen-Image-Edit:20B 开源模型用于高级图像和文本编辑

简要

阿里云的Qwen团队推出了Qwen-Image-Edit,这是一个最先进的图像编辑模型,结合了语义和外观编辑与精确的双语文本修改,为创意和实用应用提供了先进的能力。

阿里巴巴发布 qwen-image-edit:用于高级图像和文本编辑的 20B 开源模型

阿里巴巴云的 Qwen 团队推出了 Qwen-Image-Edit,这是一个基于 20B Qwen-Image 框架的先进图像编辑模型。新系统在 Qwen-Image 独特的文本渲染能力基础上进行了扩展,将其应用于图像编辑,特别关注文本修改的精确性。Qwen-Image-Edit 通过两个并行组件处理输入图像:Qwen2.5-VL,负责视觉语义控制,以及 VAE 编码器,负责视觉外观。这种双重方法使模型能够有效地处理语义级和外观级的编辑任务。该工具可以通过 Qwen Chat 的“图像编辑”功能访问。

Qwen-Image-Edit 旨在在多个编辑维度上执行。它支持外观级调整,例如添加、删除或修改视觉元素,同时保持图像的所有其他区域完好无损,以及语义级编辑,例如知识产权创建、物体旋转或风格迁移,在这些情况下,允许更广泛的像素修改,但保留语义完整性。它还提供精细的文本编辑功能,支持中文和英文,允许用户在图像中添加、删除或调整文本,同时保持字体、大小和风格的一致性。对多个广泛认可的数据集进行的基准测试表明,Qwen-Image-Edit 在图像编辑方面达到了最先进的性能,使其成为该领域未来应用的强大基础模型。

Qwen-Image-Edit的语义和外观编辑,适用于创意和实用应用

Qwen-Image-Edit 的一个显著特点是其在语义和外观编辑方面的高级功能。语义编辑涉及在确保图像的基本视觉意义保持不变的情况下,改变图像的内容。为了以简单的方式说明这一功能,开发团队以 Qwen 的官方吉祥物水豚作为一个实际示例。

![qwen-image-edit 展示了用于创意和实际应用的高级语义和外观编辑](http://img-cdn.gateio.im/social/moments-5970b5aae8436ebb045c2c725df60a57019283746574839201

观察表明,尽管修改后的图像中大部分像素与左侧原始输入图像中的像素不同,但水豚角色的整体一致性仍然完全保持。这表明Qwen-Image-Edit具有强大的语义编辑能力,支持原创知识产权内容的灵活和多样化发展。此外,在Qwen Chat中,围绕16种MBTI人格类型创建了一套专门的编辑提示。使用这些提示,成功制作了一整套以水豚吉祥物为特色的MBTI主题表情包,有效地扩展了角色的表现和可见度。

此外,新颖的视图合成代表了语义编辑中的另一个重要用例。Qwen-Image-Edit能够将物体旋转90度或执行完整的180度旋转,从而直接可视化物体的背面。语义编辑的另一个例子是风格迁移,例如,标准肖像可以被重新诠释为多种艺术美学,包括让人想起吉卜力工作室的风格。

除了语义编辑,外观编辑也是图像修改中常见的功能。这种方法侧重于保持图像特定区域完全不变,同时引入、删除或更改指定元素。如在一个示例中,招牌无缝地融入场景,外观编辑适用于多种应用,例如个人背景调整或服装修改。Qwen-Image-Edit的另一个显著特点是其在文本编辑方面的精确性,这一特性源于Qwen-Image在文本渲染技术方面的先进专长。

IN-8.79%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)