XL-VAE - CivArchive (CivitAI Archive)

1280-RetX 版について　※ サンプル画像はノーマル、1280、RetX の差分です

(1280版よりも背景側に差がついてます、主題側は主線や色に差が出ています)

リアルでもアニメでも使えます SDXLノーマルにない 1280px 学習を完了しています
このVAEについて不要な方は評価をせずスルーしてください、必要な方のみお使いください
スタンダードの fp16VAE(Fix) に対し EmoTion で全層学習を行いました、VAE エンコード＆デコード両面に対し学習を実施しています(conv含む)
ご使用においてはカスタムVAEによるエラー等もあるかもしれない、ということを念頭に置いてご使用ください

学習設定等：元VAE： https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

損失設定：MSE：85%、Sobel：5%、LPIPS：10%
EmoTion：256、768、1280px：明暗の違いと構造など
EmoTion：128、512、1024px：原色と色差と反射角など

※ 従来と同じTM-Mergeにより全結合しています
※ 以前のモデル(Checkpoint) も驚くほどキレイになるのでお試しください
※ paru-paru モデルのアーティファクトも正規化されます(ご存じの方ぜひ)

1280px 版について　※ サンプル画像はノーマルとこのVAE の差分です

リアルでもアニメでも使えます SDXLノーマルにない 1280px 学習を完了しています

このVAEについて不要な方は評価をせずスルーしてください、必要な方のみお使いください

スタンダードの fp16VAE(Fix) に対し EmoSens で全層学習を行いました、VAE エンコード＆デコード両面に対し学習を実施しています(conv含む)

ご使用においてはカスタムVAEによるエラー等もあるかもしれない、ということを念頭に置いてご使用ください

学習設定等：元VAE： https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

損失設定：MSE：85%、Sobel：5%、LPIPS：10%

EmoSens：128px、768px
EmoCat：256px、1024px
EmoAiry：512px、1280px、※ この1280pxが長時間化の最大要因
をそれぞれ担当し、この６つを Tall-Mask-Merge にて統合しています、色域と微細表現に変化あります、前のUNIV版を引き継ぎせず、全px域を再学習しています

Sens、Airy、Cats、のそれぞれのVAEはSDXLとの整合性を維持しており、単体でも使用可能状態です、この３つのイイトコドリをするためにTall-Mask-Merge を実施しました

※ EmoSens 世代は、VAEを破壊せず更新可能です
※ 学習時間はあわせて 180min くらい (RTX3060-12GB)
※ EmoSens 世代は完全自動学習率なので高値LRですぐ学習完了

UNIV 版について　※ サンプル画像はノーマルとこのVAE の差分です

リアルでもアニメでも使えます

スタンダードの fp16VAE(Fix) に対し EmoSens で全層学習を行いました、VAE エンコード＆デコード両面に対し学習を実施しています(conv含む)

通常ですとVAEに対し学習を実施すると｢モデルとVAEの整合性｣が損なわれますが、EmoSens は整合性を維持しています

このVAEは最適化され生成テストでは｢指｣について改善傾向を感じます、このVAEは学習時のLatentキャッシュも作成できます

※ つまり｢細部の再現性を向上｣しています(色域も拡大しています)

ご使用においてはカスタムVAEによるエラー等もあるかもしれない、ということを念頭に置いてご使用ください

学習設定等：元VAE： https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

損失設定：MSE：95%、Sobel：5%

EmoSens：128px、EmoCat：256px、EmoAiry：512px、をそれぞれ担当し、この３つを Tall-Mask-Merge にて統合しています、色域と微細表現に変化あります

※ EmoSens 世代は、VAEを破壊せず更新可能です
※ 学習時間はあわせて 20min くらい (RTX3060-12GB)
※ EmoSens 世代は完全自動学習率なので高値LRですぐ学習完了

KBlueLeaf 氏の EQ-SDXL-VAE を、madebyollin 氏の SDXL-Fix-VAE にマージしました

マージは、ABBA-LoRA メソッド(SVD方式)、Tall-Mask-merge メソッドを用い
特徴の抽出＋特徴のみ更新、により EQ-VAE の特徴を選択的に合成しています
これにより Latent chache や、画像出力で、詳細を得やすく進化しています
従来VAEとの置き換えでは、輝度や彩度などが上がるように見えますが、
これは細部の黒つぶれ等を抑制し、階調表現が底上げされたことに由来します
(Latent chache を生成し学習に用いることで詳細を学びやすくなるはずです)

※ もし NaN 等を生じる場合は、fp32で回避するか、使用を中止してください

※ Latent 再作成し学習に使用し完了することを確認済みです
※ EmoLynx を用いて fp8 + 2048px + ZtSNR(e-pred) も OK でした
※ 学習モデルの fp8 と 16 での誤差は 1e-4 程度(これは fp16-32 の誤差と同等)

KBlueLeaf：EQ-SDXL-VAE
https://huggingface.co/KBlueLeaf/EQ-SDXL-VAE

madebyollin：SDXL-VAE-FP16-Fix
https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

ABBA-LoRA
https://arxiv.org/abs/2505.14238

Tall-Mask-Merge
https://arxiv.org/abs/2405.07813

出力画像の見た目には大きな変化はありません
学習に用いることで効果をより高めることになると思います

Description

FAQ

Details

Files

xlVAE_fp321280px.safetensors

Mirrors

Description

FAQ

What is XL-VAE?

How do I use XL-VAE?

What files are available and where can I download them?

Details

Files

xlVAE_fp321280px.safetensors

Mirrors