사용할 수 있는 Transform
하나의 Image의 meta 정보 확인
dataset = build_dataset(cfg.data.train)
dataset[0]['img_metas']
필수적인 train pipeline (하나라도 빠지면 Error 발생)
dict(type='LoadImageFromFile')
dict(type='LoadAnnotations', with_bbox=True)
dict(type='RandomFlip', flip_ratio=0.5)
dict(type='DefaultFormatBundle')
dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
img_metas에는 필수적으로 들어가야 하는 정보들이 있는 것으로 보임(dict(type='DefaultFormatBundle')
)
pad_shape
scael_factor
flip
img_norm_cfg
dict(type='RandomFlip', flip_ratio=0.5)
의 경우 위의 필수적인 meta 정보들 중 pad_shape
, scale_factor
, flip
, img_norm_cfg
를 한 번에 가져옴
다른 transform을 통해 augmentation을 할 경우 위의 meta 정보들을 채워줘야 하는 문제가 있을 수 있다. error의 연속… 그렇기 때문에 우선 dict(type='RandomFlip', flip_ratio=0.5)
은 기본적으로 넣어둔 상태에서 augmentation 실험을 진행하는 것이 좋을 것 같다.
dict(type='RandomFlip', flip_ratio=0.5)
만 넣은 실험을 먼저 진행한 후 이후 실험부터 dict(type='RandomFlip', flip_ratio=0.5)
을 추가한 상태에서 다른 augmentation을 실험해보는 편이 좋을 것 같다.
Bbox Format의 변화
[x_min, y_min, width, height]
의 형태를 가집니다.[x_min, y_min, x_max, y_max]
여러 Image를 섞는 경우 type
을 변경시켜줘야 합니다.
MultiImageMixDataset