近年の画像生成AIの進歩は目覚ましいものがありますが、生成した画像を「正確に編集する」ことには依然として大きな課題があります。 従来の画像(ラスター画像)は、すべての視覚情報が1枚のキャンバスに「平坦に結合」されています。 そのため、例えば「人物の位置を少し右に動かす」という単純な編集であっても、AIは画像全体を再構成しようとしてしまい、関係のない背景が変わったり、人物の顔が変わってしまう「セマンティック・ドリフト(意味の変質)」や幾何学的な不整合が発生してしまいます。 この問題を根本から解決するために提案されたのが、画像を複数の独立したレイヤーに分解するQwen-Image-Layeredです。 【 発売1週間ほどで重版決定 】 Amazon 売れ筋ランキング 商業デザイン売上 1位 を記録(10/15 調べ) 音声配信でも同じテーマでお話ししました。 ながらインプットしたい方はぜひご活用ください。 https://youtu.be/Efzr2YTc_EE
このモデルの最大の特徴は、1枚のRGB画像を、意味ごとに切り分けられた複数のRGBA(赤・緑・青+透明度)レイヤーへとエンドツーエンドで分解する点にあります。 プロのデザイナーがPhotoshopなどのツールでレイヤーを使い分けるように、AIが画像を階層構造として扱うことで、以下のメリットが生まれます。
特定のレイヤーだけを操作(移動、リサイズ、色の変更など)しても、他のレイヤーの内容には一切影響を与えません。
編集していない領域が勝手に書き換わることが物理的にあり得ないため、完璧な一貫性が保たれます。
可変長のレイヤー分解を実現するために、論文では3つの主要なコンポーネントが導入されています。
従来のVAE(変分オートエンコーダー)はRGB(3チャンネル)用が一般的でしたが、本手法では透明度(Alphaチャンネル)を含むRGBA(4チャンネル)を統一的に扱える「RGBA-VAE」を構築しました。 これにより、入力画像と出力レイヤーの間の潜在空間のギャップを埋めることに成功しています。
画像によって必要なレイヤー数は異なります(背景+人物だけのものもあれば、多数の小物があるものもあります)。 新しく設計されたこのアーキテクチャは、Layer3D RoPEという技術を導入することで、可変数のレイヤーを効率的に処理し、レイヤー間の相互作用をモデル化します。
既存の画像生成モデルをいきなり分解モデルにするのは困難です。 そのため、「テキストからRGBA生成」→「テキストから複数レイヤー生成」→「画像から複数レイヤー分解」というステップを踏んで段階的に学習させています。
AIに「レイヤー構造」を教えるには、高品質なレイヤー付き画像データが必要です。しかし、これまではそのようなデータセットが不足していました。 研究チームは、現実世界のPhotoshopドキュメント(PSDファイル)からレイヤーを抽出し、アノテーションを付与する独自のデータパイプラインを開発しました。 何百ものレイヤーがある複雑なファイルから、編集に寄与しない不要なレイヤーを削除したり、重なりのないレイヤーを統合したりすることで、学習に適した高品質なデータセットを構築しています。
実験の結果、Qwen-Image-Layeredは既存の画像分解手法(LayerDなど)と比較して、分解の質、および透明度(Alphaチャンネル)の精度において大幅に上回るスコアを記録しました。 特に、文字を含む画像や複雑な重なりがあるシーンでも、文字を正確に別のレイヤーとして切り出し、背景を綺麗に補完できる能力が示されています。 また、このモデルで分解した後に手動でリサイズや配置変更を行った編集結果は、最新の画像編集モデル(Qwen-Image-Editなど)よりも遥かに高い忠実度と一貫性を実現しています。
Qwen-Image-Layeredは、画像を単なるドットの集まり(ラスター)としてではなく、意味のある「層」の積み重ねとして捉えることで、画像編集の難問であった一貫性の問題を解決しました。 今後は、AIが生成した画像をデザイナーが自分の手で微調整したり、あるいはAI自身がより精密にレイヤー単位で画像をブラッシュアップしたりするための基盤技術となるでしょう。 【 発売1週間ほどで重版決定 】 Amazon 売れ筋ランキング 商業デザイン売上 1位 を記録(10/15 調べ)