1280-RetX 版について ※ サンプル画像は ノーマル、1280、RetX の差分です
(1280版よりも背景側に差がついてます、主題側は主線や色に差が出ています)
リアルでもアニメでも使えます SDXLノーマルにない 1280px 学習を完了しています
このVAEについて不要な方は評価をせずスルーしてください、必要な方のみお使いください
スタンダードの fp16VAE(Fix) に対し EmoTion で全層学習を行いました、VAE エンコード&デコード 両面に対し学習を実施しています(conv含む)
ご使用においてはカスタムVAEによるエラー等もあるかもしれない、ということを念頭に置いてご使用ください
学習設定等: 元VAE: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
損失設定:MSE:85%、Sobel:5%、LPIPS:10%
EmoTion:256、768、1280px:明暗の違いと構造など
EmoTion:128、512、1024px:原色と色差と反射角など
※ 従来と同じTM-Mergeにより全結合しています
※ 以前のモデル(Checkpoint) も驚くほどキレイになるのでお試しください
※ paru-paru モデルのアーティファクトも正規化されます(ご存じの方ぜひ)
1280px 版について ※ サンプル画像は ノーマル と このVAE の 差分 です
リアルでもアニメでも使えます SDXLノーマルにない 1280px 学習を完了しています
このVAEについて不要な方は評価をせずスルーしてください、必要な方のみお使いください
スタンダードの fp16VAE(Fix) に対し EmoSens で全層学習を行いました、VAE エンコード&デコード 両面に対し学習を実施しています(conv含む)
ご使用においてはカスタムVAEによるエラー等もあるかもしれない、ということを念頭に置いてご使用ください
学習設定等: 元VAE: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
損失設定:MSE:85%、Sobel:5%、LPIPS:10%
EmoSens:128px、768px
EmoCat:256px、1024px
EmoAiry:512px、1280px、※ この1280pxが長時間化の最大要因
をそれぞれ担当し、この6つを Tall-Mask-Merge にて統合しています、色域と微細表現に変化あります、前のUNIV版を引き継ぎせず、全px域を再学習しています
Sens、Airy、Cats、のそれぞれのVAEはSDXLとの整合性を維持しており、単体でも使用可能状態です、この3つのイイトコドリをするため にTall-Mask-Merge を実施しました
※ EmoSens 世代は、VAEを破壊せず更新可能です
※ 学習時間はあわせて 180min くらい (RTX3060-12GB)
※ EmoSens 世代は 完全自動学習率 なので高値LRですぐ学習完了
UNIV 版について ※ サンプル画像は ノーマル と このVAE の 差分 です
リアルでもアニメでも使えます
スタンダードの fp16VAE(Fix) に対し EmoSens で全層学習を行いました、VAE エンコード&デコード 両面に対し学習を実施しています(conv含む)
通常ですとVAEに対し学習を実施すると「モデルとVAEの整合性」が損なわれますが、EmoSens は整合性を維持しています
このVAEは最適化され生成テストでは「指」について改善傾向を感じます、このVAEは学習時のLatentキャッシュも作成できます
※ つまり「細部の再現性を向上」しています(色域も拡大しています)
ご使用においてはカスタムVAEによるエラー等もあるかもしれない、ということを念頭に置いてご使用ください
学習設定等: 元VAE: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
損失設定:MSE:95%、Sobel:5%
EmoSens:128px、EmoCat:256px、EmoAiry:512px、をそれぞれ担当し、この3つを Tall-Mask-Merge にて統合しています、色域と微細表現に変化あります
Sens、Airy、Cats、のそれぞれのVAEはSDXLとの整合性を維持しており、単体でも使用可能状態です、この3つのイイトコドリをするため にTall-Mask-Merge を実施しました
※ EmoSens 世代は、VAEを破壊せず更新可能です
※ 学習時間はあわせて 20min くらい (RTX3060-12GB)
※ EmoSens 世代は 完全自動学習率 なので高値LRですぐ学習完了
KBlueLeaf 氏の EQ-SDXL-VAE を、madebyollin 氏の SDXL-Fix-VAE にマージしました
マージは、ABBA-LoRA メソッド(SVD方式)、Tall-Mask-merge メソッドを用い
特徴の抽出+特徴のみ更新、により EQ-VAE の特徴を選択的に合成しています
これにより Latent chache や、画像出力で、詳細を得やすく進化しています
従来VAEとの置き換えでは、輝度や彩度などが上がるように見えますが、
これは細部の黒つぶれ等を抑制し、階調表現が底上げされたことに由来します
(Latent chache を生成し学習に用いることで詳細を学びやすくなるはずです)
※ もし NaN 等を生じる場合は、fp32で回避するか、使用を中止してください
※ Latent 再作成し学習に使用し完了することを確認済みです
※ EmoLynx を用いて fp8 + 2048px + ZtSNR(e-pred) も OK でした
※ 学習モデルの fp8 と 16 での誤差は 1e-4 程度(これは fp16-32 の誤差と同等)
KBlueLeaf:EQ-SDXL-VAE
https://huggingface.co/KBlueLeaf/EQ-SDXL-VAE
madebyollin:SDXL-VAE-FP16-Fix
https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
ABBA-LoRA
https://arxiv.org/abs/2505.14238
Tall-Mask-Merge
https://arxiv.org/abs/2405.07813
出力画像の見た目には大きな変化はありません
学習に用いることで効果をより高めることになると思います

