CivArchive
    Preview 33960105

    看心情更新

    一键包:20240922 / 20240923 / 20241011

    • 20241011_jc 对应 JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip

    • 20241011_wd 对应 WD14-Batch_20241010_1453_00b0af07.zip

    • 20240923_wd_2 对应 wd14-tagger-standalone_eff5dd41.zip 。

    • 20240922_wd 对应 wdv3-batch-vit-tagger_27892e24.zip 。

    • 20240922_jt 对应 joytag-batch_fbd67196.zip 。

    • 20240920_jc 对应 joy-caption-batch_3abeaedf.zip 。

    工作流:20240909


    20241011

    面向 ChatGPT 编程的产物:

    https://github.com/SGN-EARTH/WD14-Batch

    包含 wd-eva02-large-tagger-v3 和 wd-vit-tagger-v3 ,默认使用 wd-eva02-large-tagger-v3 。

    文件名称: WD14-Batch_20241010_1453_00b0af07.zip
    文件大小: 1.52 GB (1,634,922,203 字节)
    实际占用:1.80 GB
    MD5: 3184C6FCB830BDB9CFFC2E307BA159DB
    SHA1: 0026C42868C30A4FD1B30AFFCF93E1EC6CB0AF07
    CRC32: 87D20904

    https://github.com/SGN-EARTH/JoyCaption-Pre-Alpha-Batch

    包含 Meta-Llama-3.1-8B-bnb-4bit 和 Meta-Llama-3.1-8B ,默认使用 Meta-Llama-3.1-8B 。

    文件名称: JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip
    文件大小: 22.6 GB (24,289,098,531 字节)
    实际占用:28.8 GB
    MD5: 091B95F624FB7FA9FBA8F4C406EDB4E8
    SHA1: 93FEBC123C7683211D8BC4B36264EFD9C8E4207A
    CRC32: 3184CCE2


    20240923

    重新上传文件。使用 7-zip 命令行打包文件,文件大小会比之前的少上一些。

    7z a -tzip -mx=3 -mm=Deflate -mfb=32 -mpass=1 -mmt=16 -mtc=off -snl
    文件名称: wdv3-batch-vit-tagger_27892e24.zip
    文件大小: 3.05 GB (3,276,890,333 字节)
    实际占用:5.64 GB
    MD5: 258154EB8FA5F5CB54C70DBD73D1B918
    SHA1: 27AFFE0A5E942409317661C3AA526F9BCE892E24
    CRC32: 74642B7B
    
    
    文件名称: joytag-batch_fbd67196.zip
    文件大小: 2.76 GB (2,967,319,456 字节)
    实际占用:4.94 GB
    MD5: 1643EB2F9DC38C7D86D71DB5E4EF1C42
    SHA1: FB41FCEC1781F369B49C064CF173D56F99D67196
    CRC32: 043EDA1D
    
    
    文件名称: joy-caption-batch_3abeaedf.zip
    文件大小: 10.6 GB (11,465,193,889 字节)
    实际占用:13.9 GB
    MD5: B400006D28EE76AF67D89F14F59E0432
    SHA1: 3A23FAE5A79D938744871E7A4394B27E16BEAEDF
    CRC32: BA9D55C0
    
    
    文件名称: wd14-tagger-standalone_eff5dd41.zip
    文件大小: 6.98 GB (7,501,150,905 字节)
    实际占用:8.38 GB
    MD5: 5878151167DEDDDBC0FB6E1222F2045C
    SHA1: EFE0382F28ECFDDD62E3570163FE4A14D7F5DD41
    CRC32: DDED6CCB

    因压缩时保留了符号链接,某些系统可能无法完整解压,可尝试先给解压缩工具管理员权限再解压。

    开始菜单 -> 7-ip -> (右键 - 更多 - 以管理员身份运行)-> 找到文件 -> 右键解压

    个人不建议使用 joytag 。有些图男的能识别成女的,有些还带上多余的单词。如果打标每张图都审核确认一番,那就很牛逼→_→

    wd14-tagger-standalone

    https://github.com/corkborg/wd14-tagger-standalone

    把图片丢 input 里,运行 run2.bat 。或者运行 python run.py -h 查看使用帮助。

    包已包含以下模型:
    
    wd14-vit.v1
    SmilingWolf/wd-v1-4-vit-tagger
    
    wd14-vit.v2
    SmilingWolf/wd-v1-4-vit-tagger-v2
            
    wd14-convnext.v1
    SmilingWolf/wd-v1-4-convnext-tagger
            
    wd14-convnext.v2
    SmilingWolf/wd-v1-4-convnext-tagger-v2
    
    wd14-convnextv2.v1
    SmilingWolf/wd-v1-4-convnextv2-tagger-v2
    
    wd14-swinv2-v1
    SmilingWolf/wd-v1-4-swinv2-tagger-v2
    
    wd-v1-4-moat-tagger.v2
    SmilingWolf/wd-v1-4-moat-tagger-v2
    
    wd-v1-4-vit-tagger.v3
    SmilingWolf/wd-vit-tagger-v3
    
    wd-v1-4-convnext-tagger.v3
    SmilingWolf/wd-convnext-tagger-v3
    
    wd-v1-4-swinv2-tagger.v3
    SmilingWolf/wd-swinv2-tagger-v3
    
    wd-vit-large-tagger-v3
    SmilingWolf/wd-vit-large-tagger-v3
    
    wd-eva02-large-tagger-v3
    SmilingWolf/wd-eva02-large-tagger-v3
    
    z3d-e621-convnext-toynya
    toynya/Z3D-E621-Convnext
    
    z3d-e621-convnext-silveroxides
    silveroxides/Z3D-E621-Convnext
    
    mld-caformer.dec-5-97527
    deepghs/ml-danbooru-onnx
    
    mld-tresnetd.6-30000
    deepghs/ml-danbooru-onnx

    。。。或者试试 wd-joy-caption-cli 集成了 WD14JoyCaption 。


    20240922

    所谓的一键包。

    wdv3-batch-vit-tagger

    https://github.com/Ketengan-Diffusion/wdv3-batch-vit-tagger

    运行 run2.bat 后在浏览器内操作。

    修改了一点点参数:【Hide rating tags】和【Character tags first】按钮默认勾选;运行自动打开浏览器。

    文件实际占用 5.64GB

    文件名称: wdv3-batch-vit-tagger.zip
    文件大小: 3.37 GB (3,629,678,604 字节)
    MD5: 06A39A326055D4F38107A56C99D7CFCA
    SHA1: 441A76087458EE93765E029947E64C5AF7F5377B
    CRC32: 41B9B143

    joytag-batch

    https://github.com/MNeMoNiCuZ/joytag-batch

    把图片丢 input 里,运行 run2.bat 。

    修改了一点点:

    # batch.py
    import sys
    # 将当前目录添加到sys.path
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))

    文件实际占用 4.94GB 。

    文件名称: joytag-batch.zip
    文件大小: 2.76 GB (2,967,319,429 字节)
    MD5: B4C1AE347A9F81DEA7422B18F6454F65
    SHA1: 430C5A370D609F771B386BDFE072CE768136DD07
    CRC32: 88AC5CC9


    20240920

    所谓的一键包。

    原始项目 joy-caption-batch 和我没有关联,有项目的问题可以找大佬问。我只是一位假装热心的大陆网友。

    目录迁移到其他路径或其他电脑仍能运行。显存占用 9.1 GB 左右,RTX3060_12G 和 RTX2080Ti_22G 测试能正常运行,其他自己测试。

    文件实际占用 13.9GB ,压缩后占用 18.5GB 是文件链接的毛病。

    文件名称: joy-caption-batch.zip
    文件大小: 18.5 GB (19,935,163,190 字节)
    MD5: 999699AEF755D1487EB3DD4DCF7161E6
    SHA1: 9B560FBFA79DFF0BD1EA169F06781CD6F3A09FD9
    CRC32: 10BC9D3F

    怎么使用:

    把图片丢 input 目录内,运行 run2.bat 或者运行 run.bat 后再执行 python batch.py 。

    batch2.py 是让 ChatGPT 改造成了使用离线模型。batch.py 配置了 HF_HOME 模型也下载完成了,有时候运行时还是请求 huggingface 。

    最好完全断网再运行,或保证网络能访问 huggingface ,再不行就运行 python batch2.py ,也可以尝试配置环境变量 HF_ENDPOINT 。


    简单创建跑路包流程:

    ( 开个 SSSVIP 会员 / 三连了,求发!我什么都可以做! / 换个网盘吧 / XXXX!XXXX!XXX!)

    1.获取文件

    git clone https://github.com/MNeMoNiCuZ/joy-caption-batch.git

    2.下载

    https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip
    
    https://bootstrap.pypa.io/get-pip.py

    3.开始安装

    解压 python-3.11.9-embed-amd64.zip 到 python 目录,把 get-pip.py 丢 python 目录中,然后把 python 目录移动到 joy-caption-batch 目录内;
    
    运行 run.bat ,执行 python python\get-pip.py ;
    
    编辑 python\python311._pth 把 import site 所在行开头的 # 符号去除,保存文件。

    4.安装依赖

    python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
    
    python -m pip install -r requirements.txt

    run.bat 内容

    @echo off
    
    cd /d %cd%
    :: cd /d %~dp0
    
    set DIR=%cd%
    
    :: https://www.python.org/ftp/python/
    :: https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip
    :: https://bootstrap.pypa.io/get-pip.py
    
    set PATH=%DIR%\python;%DIR%\python\Scripts;%PATH%;
    :: set PATH=%DIR%\git\bin;%DIR%\python;%DIR%\python\Scripts;%PATH%;
    set PY_LIBS=%DIR%\python\Scripts\Lib;%DIR%\python\Scripts\Lib\site-packages
    set PY_PIP=%DIR%\python\Scripts
    set PIP_INSTALLER_LOCATION=%DIR%\python\get-pip.py
    
    set HF_HOME=%DIR%\hf
    :: set HF_ENDPOINT=https://hf-mirror.com
    :: set HUGGINGFACE_HUB_DISABLE_CACHE=1
    
    :: 安装 pip 后不可使用时,可尝试编辑 %DIR%\python\pythonXXX._pth 去掉 import site 的注释
    
    :: python 脚本将当前目录添加到 sys.path
    ::      import os
    ::      import sys
    ::      sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    
    :: 包临时缓存路径
    set PIP_CACHE_DIR=%DIR%\cache
    
    :: 缓存。off 禁用,on 启用
    :: set PIP_NO_CACHE_DIR=off
    
    :: 包索引 URL
    set PIP_INDEX_URL=https://mirrors.cloud.tencent.com/pypi/simple
    :: https://pypi.org/simple
    :: https://mirrors.163.com/pypi/simple/
    :: https://mirrors.cloud.tencent.com/pypi/simple
    :: https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
    
    :: python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
    
    :: 额外包索引 URL
    :: set PIP_EXTRA_INDEX_URL=https://pypi.org/simple
    
    :: 请求包索引超时时间。单位:秒。
    set PIP_TIMEOUT=10
    
    :: 更详细的调试信息
    :: set PIP_VERBOSE=1
    
    cmd /k

    这个创建方式适用于很多 python 项目。


    或者看看这个方式:

    整合包?你也能做,打包AI项目,打包CUDA,打包CUDNN,打包TensorRT,打包FFMPEG,AI项目整合包制作

    https://www.bilibili.com/video/BV1jMyeYrErW/


    20240909

    压缩包内包含四个文件。JoyCaption_WD14-JoyTag_Batch_XX :使用 WD14、JoyTag 或 JoyCoption 批量输入输出反推,仅输入输出节点不一样。

    • WD14-ClipInterrogator-JoyTag-JoyCoption-MiniCPMv2-CogFlorence2-InternVL2.json :单一张图使用那么多的工具反推。

    • JoyCaption_WD14-JoyTag_Batch_V1.json :执行一次会输入一张新的图片,想要跑几张就修改 ComfyUI 执行的批次数量。跑完一组后会进入下一组。所有组跑完后进入下一张。节点会输出文本,文本文件名称为图片名称。

    • JoyCaption_WD14-JoyTag_Batch_V2.json :执行一次会把索引图片都输出,跑完一个节点后会进入下一个节点,跑完一组后会进入下一组。节点会输出文本。

    • JoyCaption_WD14-JoyTag_Batch_V3.json :(同V2)节点会输出图片和文本,输出的图片和文本处于同一目录内。

    V2 和 V3 的 WD14 节点面板会越界,图片越多面板拉得越长。


    WD14

    https://github.com/pythongosssss/ComfyUI-WD14-Tagger

    (编辑 pysssss.json 可以再加入 wd-vit-large-tagger-v3 和 wd-eva02-large-tagger-v3)

    ClipInterrogator

    https://github.com/unanan/ComfyUI-clip-interrogator

    JoyCaption / Florence / MiniCPM

    https://github.com/StartHua/Comfyui_CXH_joy_caption

    JoyTag

    https://github.com/StartHua/Comfyui_joytag

    JoyCaption / JoyTag

    https://github.com/aidenli/ComfyUI_NYJY

    InternVL2

    https://github.com/leeguandong/ComfyUI_InternVL2


    如果仅使用 JoyCaption 反推,可以试试 https://github.com/MNeMoNiCuZ/joy-caption-batch ,完全脱离 Comfyui 环境,速度很快。作者也有好几个用于反推的工具。

    安装 joy-caption-batch 大概是这些流程:

    1,git clone https://github.com/MNeMoNiCuZ/joy-caption-batch
    
    2,运行 venv_create.bat ...
    
    3,运行 venv_activate.bat
    
    4,pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

    对于各种自动下载模型(huggingface)的节点,最好设置环境变量 HF_HOME 。方便带着模型跑路(特别是 ClipInterrogator )。

    (如果是 Comfyui 里可以编辑根目录 run_nvidia_gpu.bat 在首行添加 set HF_HOME=huggingface 。)

    在 joy-caption-batch 中可以在完成初始环境后编辑 venv_activate.bat 添加 set HF_HOME=hf 环境变量。或者新增一个批处理,内容如下:

    @echo off
    
    cd %cd%
    
    set HF_HOME=hf
    
    set VENV_PATH=venv
    
    :: set VENV_PATH=%cd%\venv
    
    echo.
    
    echo Activating virtual environment...
    
    call "%%VENV_PATH%%\Scripts\activate"
    
    echo Virtual environment activated.
    
    echo %cd%
    
    cmd /k python batch.py
    
    pause

    自定义某些参数可以修改编辑 batch.py

    LOW_VRAM_MODE:为 True 使用低显存模式
    
    TEMPERATURE:控制预测的随机性。较低的值使输出更集中且确定性更强,而较高的值则增加随机性。
    
    TOP_K:将采样池限制为每一步最可能的前 K 个选项。较低的值使输出更具确定性,而较高的值则允许更多的多样性
    
    MAX_NEW_TOKENS:生成的最大令牌数。这限制了生成文本的长度。

    个人仅修改了这三个参数:

    LOW_VRAM_MODE = True
    
    TEMPERATURE = 0.35
    
    MAX_NEW_TOKENS = 1024

    其他反推工具:

    https://github.com/smthemex/ComfyUI_Pic2Story

    https://github.com/shadowcz007/comfyui-mixlab-nodes (也有反推节点)

    使用 ollama 节点跟各种大模型扯皮输出图片描述也不是不行。

    Description

    FAQ

    Comments (3)

    solonglin342Nov 18, 2024
    CivitAI

    感謝開發這麼好用的工具,這個跑出來的反推文字,是最齊全的,很適合flux

    NotSet
    Author
    Nov 18, 2024

    不是我开发的,,,我只是用 ChatGPT 修改了一点点,,,

    sndresseric712Feb 15, 2025
    CivitAI

    好东西,不过我尝试安装V3在webui本地里就会报错,不知道是哪里没修改好,只能用你这个本地版本了

    Other
    Other

    Details

    Downloads
    45
    Platform
    CivitAI
    Platform Status
    Available
    Created
    10/11/2024
    Updated
    6/1/2026
    Deleted
    -

    Files

    JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip