베이스라인 코드에 기본적으로 제공되어 있는 train.json 파일. AIstages의 사전 학습된 모델을 통한 annotation이 진행되어 있는 데이터.
image : 각 사진의 파일명
word_counts : annotation 되어 있는 단어의 개수 (bounding box의 수)
image_width : 이미지의 넓이 (영수증 이미지)
image_height : 이미지의 높이 (영수증 이미지)
image_tags : 사전 학습된 모델이 자동으로 annotation을 진행했기에 image_tags는 [autoannotated] 상태이며 이는 None처리함. 추후 캠퍼들이 직접 라벨링한 데이터나 AI hub의 다른 이미지를 사용할 경우 [document] , [outfocus] 등의 태그가 있을 수 있음.
100장의 이미지에 대해
평균 311개의 단어 박스가 있으며
이미지의 평균 크기는 2042 x 2612로 주로 세로로 긴 이미지가 있음.
가장 작은 이미지 넓이는 645픽셀이며, 높이는 803픽셀. 가장 큰 이미지 넓이는 4032 픽셀이며 높이는 4160픽셀로 데이터의 크기 편차가 큰 편이다.