-
Notifications
You must be signed in to change notification settings - Fork 45
Open
Description
作者您好!感谢您的工作。近期我们在尝试复现您在论文Controlling Vision-Language Models for Multi-Task Image Restoration的Table 2中关于在低光数据集LOL上的指标时发现,训练出的模型难以复现表中的指标。
我们的模型是单独在低光数据集上进行训练的,使用的配置文件如下(基本和仓库中原有的配置文件里的参数一致):
#### general settings
name: universal-ir
use_tb_logger: true
model: denoising
distortion: [low-light]
gpu_ids: [0,1,2,3,4,5,6,7]
sde:
max_sigma: 50
T: 100
schedule: cosine # linear, cosine
eps: 0.005
degradation: # for some synthetic dataset that only have GTs
# for denoising
sigma: 25
noise_type: G # Gaussian noise: G
# for super-resolution
scale: 4
#### datasets
datasets:
train:
name: Train_Dataset
mode: MD
dataroot: datasets/universal/train
use_shuffle: true
n_workers: 16 # per GPU
batch_size: 16
patch_size: 256
use_flip: true
use_rot: true
color: RGB
val:
name: Val_Dataset
mode: MD
dataroot: datasets/universal/val
#### network structures
network_G:
which_model_G: ConditionalUNet
setting:
in_nc: 3
out_nc: 3
nf: 64
ch_mult: [1, 2, 4, 8]
context_dim: 512
use_degra_context: true
use_image_context: true
#### path
path:
pretrain_model_G: ~
strict_load: true
resume_state: ~
daclip: pretrained/daclip_ViT-B-32.pt
#### training settings: learning rate scheme, loss
train:
optimizer: AdamW # Adam, AdamW, Lion
lr_G: !!float 2e-4
lr_scheme: TrueCosineAnnealingLR # MultiStepLR
beta1: 0.9
beta2: 0.99
niter: 700000
warmup_iter: -1
lr_steps: [200000, 400000, 600000]
lr_gamma: 0.5
eta_min: !!float 1e-6
# criterion
is_weighted: False
loss_type: l1
weight: 1.0
manual_seed: 0
val_freq: !!float 1e9
#### logger
logger:
print_freq: 100
save_checkpoint_freq: !!float 1e4
我们选取训练了10k和20k个iteration的模型进行测试后发现它们的表现远不如表中的指标,甚至和其他baseline相比也有很大差距。并且我们发现模型在训练至25k iter时损失基本就难以下降了。
请问您是否能为我们提供建议,或是分享您在该数据集上训练时使用的参数?
Activity
Algolzw commentedon Mar 8, 2025
你好,如果只训练低光数据的话需要把use_degra_context设置为false。一般来说loss无明显下降时图像质量依然会随着训练提升,可以尝试多训练一段时间。
jachinzhang1 commentedon Mar 8, 2025
感谢您的回复,稍后我们会做更多尝试。另外我们还想要反映的一个问题是,在尝试复现论文Table 2中多个任务的指标的过程中我们发现,在GORPO数据集上训练的模型进行测试时所消耗的显存 (大约40GB) 要远远大于在其他数据集(我们尝试了Rain100H和LOL)上训练的模型在测试时消耗的显存 (大约6GB) 。我们认为这个现象并不正常,请问您在做相关测试时是否遇见过类似的情况?
Algolzw commentedon Mar 14, 2025
你好,感谢反馈哈。我感觉显存问题是犹豫gopro数据集本来图像size就比其他数据集大(2K左右,其他的都在1k甚至500以内)。