中文版
请注意,这是一款NSFW的模型,训练集包含了大量的NSFW数据!
作者的话:
最近在测试LTX2.3的T2V动画生成效果,我发现Sulphur生成的2D动画都是类似于3D游戏的风格,并且我不断修改TAG发现风格非常统一,且很容易崩。我测试了Dasiwa的模型,发现效果好了不少,但是风格仍然高度统一且不好调整。
首先,先感谢社区其他开发者的贡献,提供了许多LoRA用于解决LTX2.3的动画风格缺少的问题。然而,我没有找到像素风格的LoRA,并且LTX2.3完全不支持像素风格的生成,pixel等提示词根本无效。于是我一时兴起,决定做一个像素风格的LoRA,同时能够生成NSFW的内容(绝对不是玩像素游戏玩到一半突发奇想)。
由于我并不是专业的AI社区模型训练家,所以训练的模型可能有一些问题,我发现一个显著的问题就是人脸容易崩,可能是因为数据集分辨率比较小,另外不确定是否有哪些地方会过拟合。
数据收集有点匆忙,我仅凭自己的回忆找了几个以前曾玩过的像素游戏和像素动画(包括对应作者的相关产品),并且所有的工作都是手工完成的,这导致我并没有足够的时间检查其数据集合理性。当我发现问题的时候已经晚了,我租了服务器跑了一半,但是我已经没精力和算力重头训练了。
如果说您有更好的方案或者您对LTX2.3 Pixel LoRA感兴趣的话,请阅读后续部分“存在的问题和解决方案”。欢迎您能够接手这份模型的工作!
如果您喜欢我的工作,请给我一些支持!
使用建议
权重设置 1-1.5 (系数越高像素锯齿越重)。
建议模型 Dasiwa (体感最好)。
可用模型 Sulphur (也许需要一些2D或Animation LoRA进行画质修正)。
触发词:pixel, Animation, 像素
!注意:本模型未训练音频!
训练设置
使用AI toolkit进行训练。15000 step。learning rate 0.00002。视频25帧。
存在的问题和解决方案
数据集收集:只包含了NSFW的内容,且大多数都是我手动从游戏或者视频里面找出来的。目前仍在持续更新,我会在后续的时间里面继续将所见到的好的像素素材都加入进去(不建议用爬虫直接将所有和pixel有关的东西都下载下来,会严重影响数据集风格,不同的像素作品内容差异实在是太大)。
样本打标:为了能够对NSFW的素材进行自然语言标注,我使用了Qwen3-VL-4B-Instruct-abliterated进行视频和图像理解,并且输出了提示词。然而,训练到一半我才发现,Qwen3虽然能够输出一些NSFW的内容,但是却无法输出具体的NSFW行为,这导致素材里面一些动作被完全忽略了,模型只能学到pixel的风格,却无法学到pixel动画中的sex动态表现形式。这让我感到非常遗憾,后续测试了llama-joycaption-beta-one-hf-llava,能够理解一些性行为,但是仍不够好。总之,我不想再重新训练一次了,我暂时没热情了。
如果您对这份工作感到兴趣,请私聊我,我在看到后会给你分享我的数据集,希望您能够完成一个更好的模型,这样我就可以直接用了哈哈!!!
English
WARNING: This is an NSFW model, and the training dataset contains a massive amount of NSFW data!
A Message from the Creator:
Recently, while testing the T2V animation generation capabilities of LTX2.3, I noticed that the 2D animations generated by Sulphur all had a 3D-game-like aesthetic. Furthermore, I found that constantly tweaking the tags resulted in a highly uniform style that was prone to breaking down. I tested Dasiwa's model and found the results much better, but the style was still highly uniform and difficult to adjust.
First off, I want to thank other developers in the community for their contributions, especially for providing numerous LoRAs to address the lack of animation styles in LTX2.3. However, I couldn't find a pixel art LoRA, and LTX2.3 completely fails to generate pixel art natively; prompts like "pixel" are entirely ineffective. So, on a whim, I decided to create a pixel art LoRA that can also generate NSFW content (and no, this wasn't just a sudden brainwave from playing pixel games halfway through).
Since I am not a professional AI model trainer, there might be some issues with this model. One prominent problem I've noticed is that faces tend to distort easily. This is likely because the dataset resolution is relatively low, though I'm not entirely sure if there is overfitting elsewhere.
The data collection was a bit rushed. I relied on my own memory to find a few pixel games and pixel animations I had played in the past (including related works by their respective creators). Everything was done manually, which meant I didn't have enough time to properly verify the dataset's validity. By the time I realized the issues, it was too late. I had already rented a server and completed half the training, and I simply didn't have the energy or compute resources left to start over.
If you have a better solution or are interested in the LTX2.3 Pixel LoRA, please read the "Known Issues and Solutions" section below. You are more than welcome to take over this project!
If you like my work, please show some support!
Usage Recommendations
Weight: Set to 1.0 - 1.5 (The higher the coefficient, the heavier the pixel aliasing/jaggedness).
Recommended Base Model: Dasiwa (Subjectively provides the best results).
Alternative Base Model: Sulphur (May require additional 2D or Animation LoRAs for quality correction).
Trigger Words: pixel, Animation, 像素
Note: This model was NOT trained on audio!
Training Settings
Trained using AI Toolkit. 15,000 steps. Learning rate: 0.00002. 25 frames per video.
Known Issues and Solutions
Dataset Collection: The dataset only includes NSFW content, and most of it was manually extracted by me from games or videos. It is currently being continuously updated, and I plan to keep adding high-quality pixel assets I come across in the future. (I strongly advise against using web scrapers to blindly download everything related to "pixel," as this will severely degrade the stylistic consistency of the dataset. The visual differences between various pixel art works are simply too vast.)
Sample Tagging: To generate natural language captions for the NSFW assets, I used Qwen3-VL-4B-Instruct-abliterated for video and image understanding to generate prompts. However, halfway through training, I realized that while Qwen3 could output some NSFW content, it failed to describe specific NSFW actions. As a result, certain movements in the assets were completely ignored. The model learned the pixel art style but failed to learn the sexual dynamic expressions in pixel animations. I found this deeply regrettable. I later tested llama-joycaption-beta-one-hf-llava, which could understand some sexual acts, but it still wasn't good enough. Anyway, I don't want to retrain this anymore; I've temporarily lost the motivation.
If you are interested in taking over this project, please ask me. I will share my dataset with you once I see your message. I hope you can create a better model so I can just use it directly, haha!!!
日本語
【注意】本モデルはNSFW(成人向け)モデルです。学習データセットには大量のNSFWデータが含まれています!
作者より:
最近、LTX2.3のT2V(テキストから動画生成)のテストを行っていた際、Sulphurが生成する2Dアニメーションが3Dゲームのようなスタイルになってしまうことに気づきました。また、タグをいくら調整してもスタイルが画一的になりやすく、破綻しやすいという問題もありました。Dasiwaのモデルを試したところ結果はだいぶ改善されましたが、やはりスタイルが固定されやすく、調整が難しい状態でした。
まず初めに、LTX2.3のアニメーションスタイル不足を補うための多くのLoRAを提供してくれたコミュニティの他の開発者の方々に感謝します。しかし、私はピクセルアート風のLoRAを見つけることができず、LTX2.3はピクセルアート生成に完全に対応していませんでした(「pixel」などのプロンプトも全く機能しませんでした)。そこで思いつきで、NSFWコンテンツも生成できるピクセルアート風LoRAを作ることにしました(決して、ピクセルゲームの最中に突然思いついたわけではありません)。
私はプロのAIモデル学習者ではないため、このモデルにはいくつかの問題があるかもしれません。顕著な問題として、顔が破綻しやすいことが挙げられます。これはデータセットの解像度が比較的低いことが原因だと思われますが、他に過学習している部分があるかどうかは定かではありません。
データの収集はかなり急いで行いました。自分の記憶だけを頼りに、過去にプレイしたピクセルゲームやピクセルアニメ(およびそれらの作者の関連作品)をいくつか探し出しました。すべての作業が手作業だったため、データセットの妥当性を十分にチェックする時間がありませんでした。問題に気づいた時にはもう手遅れで、サーバーを借りて学習の半分以上が完了しており、もう一度ゼロから再学習する気力も計算リソースも残っていませんでした。
もしより良い解決策をお持ちの方、あるいはLTX2.3 Pixel LoRAに興味を持っていただける方がいれば、以下の「既存の問題と解決策」のセクションをお読みください。ぜひこのモデルの改善を引き継いでいただければ幸いです!
もし私の作品を気に入っていただけたら、サポートをお願いします!
使用の推奨設定
ウェイト: 1.0 - 1.5 に設定(数値が高いほど、ピクセルのジャギーが目立つようになります)。
推奨ベースモデル: Dasiwa(体感的に最も結果が良いです)。
代替ベースモデル: Sulphur(画質補正のために、2DまたはAnimation系のLoRAが別途必要になる場合があります)。
トリガーワード: pixel, Animation, 像素
【重要】本モデルは音声(オーディオ)の学習を一切行っていません!
学習設定
AI Toolkitを使用して学習。15,000ステップ。学習率(Learning Rate): 0.00002。動画は25フレーム。
既存の問題と解決策
データセットの収集: NSFWコンテンツのみを含んでおり、そのほとんどはゲームや動画から手作業で抽出したものです。現在も継続的に更新中であり、今後見かけた良質なピクセル素材を追加していく予定です。(※「pixel」に関連するものをクローラーで無差別にダウンロードすることは強く推奨しません。様々なピクセル作品のビジュアル的な差異が大きすぎるため、データセットのスタイル統一性が著しく損なわれます。)
サンプルのタグ付け: NSFW素材に自然言語のキャプションを付けるため、動画や画像の理解に「Qwen3-VL-4B-Instruct-abliterated」を使用し、プロンプトを出力させました。しかし、学習の途中で、Qwen3はNSFWコンテンツ自体は出力できるものの、具体的なNSFWの行為(アクション)を正確に記述できないことに気づきました。その結果、素材内の特定の動きが完全に無視され、モデルはピクセルアートスタイルは学習できたものの、ピクセルアニメにおける性的な動的表現を学習できませんでした。これは非常に残念なことです。その後「llama-joycaption-beta-one-hf-llava」もテストしましたが、ある程度の性的行為は理解できるものの、やはり十分ではありませんでした。いずれにせよ、もう一度再学習する気にはなれません。今は一時的にモチベーションが切れています。