주요 dataset 및 파이썬 이미지 라이브러리

2020. 12. 23. 16:03Computer vision ღ'ᴗ'ღ

728x90

※ 본 글은 <딥러닝 컴퓨터비전 완벽가이드> 강의 및 여러 자료를 참고하여 쓰여진 글입니다. ※

github: github.com/chaeyeongyoon/ComputerVision_Study

 

chaeyeongyoon/ComputerVision_Study

Contribute to chaeyeongyoon/ComputerVision_Study development by creating an account on GitHub.

github.com

 

Datasets

PASCAL VOC xml format annotation->객체이름, 위치, bounding box 좌상단, 우하단 좌표
20개 Object Category
하나의 이미지 내 오브젝트 개수 평균 2.4개
이미지 개수: 11k
IoU threshold: 0.5

현재는 학습용으로는 잘 쓰이지 않음
MS COCO json format annotation 
80개 Object Category
하나의 이미지 내 오브젝트 개수 평균 5개
이미지개수 300K
tensorflow object detection api및 많은 오픈 소스 계열 주요 패키지는 COCO dataset으로 pretrained된 모델 제공
Google Open Images 600개 Object Category -> size매우큼

여러버전 존재. 가장 최신은 V5

 v5의 특징은 객체의 인스턴스를 위해 350가지 카테고리에 걸쳐 280만개 세분화 마스크를 갖췄다.
바운딩박스와는 달리 세분화 마스크는 개체가 존재하는 곳 밖에 인식하지 않는다. (segmentation)
마스크는 수작업 드로잉보다 훨씬 효율적이고 IoU(Intersection-over-Union)에서 84%를 기록할 만큼 높은 정확도.

다양한 카테고리 객체, 삽화를 포함하고 있다.

마스크 외에도 구글은 인간이 검증한 새로운 이미지 수준 레이블을 640만개 추가했고 이에 따라 2만 개 가까운 카테고리와 3,650만개 레이블을 제공 

PASCAL VOC

구조 : 

Annotations xml format, 한개 이미지에 대한 annotation정보 갖고있음. 확장자 제외한 파일명은 image파일명과 동일
ImageSet 어떤 이미지를 train, test, trainval, val에 사용할 것인지 대한 매핑정보르르 개별 오브젝트별로 가지고 있음
JPEGImages Detection과 Segmentation에 사용될 원본이미지
SegmentationClass Semantic Segmentation에 사용될 masking image
SegmentationObject Instance Segmentation에 사용될 masking image

※ semantic segmentation / instance segmentation

semantic segmentation

위 그림과 같이 각 픽셀이 각 class대해 포함되는지 안되는지 여부를 따져서 segmentation. 즉 각 픽셀이 강아지인지 차인지 사람인지 이렇게 binary하게 따짐(맞다/아니다)
따라서 이미지 사이즈 크기로 class개수만큼 output채널 존재
그래서 같은 class object대해 구분지을 수
가 없습니다.
오른쪽 그림도 보면 차 object가 서로 구분이 안되고 있죠.

instance segmentation

각 픽셀별로 어떤 카테고리인지 계산하는 것이 아니라 픽셀별로 오브젝트가 있는지 없는지 여부만을 확인합니다.
일반적으로 2-stage detector에서는 bounding box로 localization 먼저 수행한 후 localized된 ROI마다 class 개수만큼 masking해주어 semantic segmentation과 달리 이미지 사이즈 크기로 class개수만큼 output채널이 있는 것이 아니라 ROI별로 class개수만큼 output채널이 존재합니다.

 MS-COCO dataset

구조:

이미지파일들이 각각 zip파일로 되어있고 (train2017, val2017, test2017),

하나의 JSON format annotation파일이 있습니다.(한라인으로 구성)

COCO dataset은 한 이미지 내에 category와 instance수가 모두 높은 편이라서 다른 데이터셋과 비교하여 난이도가 높은 데이터를 제공합니다.

 

Image libraries

PIL 주로 이미지처리만을 하고 속도가 느리다
scikit Image ( scikit-learn과는 무관) 파이썬기반 전반적인 컴퓨터 비전 기능을 지원하고 scipy기반이다
OpenCV 오픈소스 기반 가장 인기가 많은 컴퓨터비전 라이브러리
구현이 쉽고 다양한 언어를 지원한다
728x90

'Computer vision ღ'ᴗ'ღ' 카테고리의 다른 글

R-CNN(Regions with CNN)  (0) 2021.01.03
COCO dataset 다루기  (0) 2020.12.26
IOU /NMS/mAP  (0) 2020.12.23
Localization / Detection / Segmentation  (0) 2020.12.23
Object Detection 개요  (0) 2020.12.23