데이터 라벨링이란?
- 데이터 라벨링 작업은 머신러닝이나 딥러닝 모델링 작업 전에 학습 데이터에 특정 값을 부여 해주는 것이다. 이는, AI 산업의 기본이기도 하지만, 기업의 AI 사업의 획기적 발전을 이루기 위한 핵심 요소로 인식된다.
- 하지만, 사람이 일일이 하다 보니 비용이 많이 들고 시간이 오래 걸리는 작업이다.
- 첫째, 머신러닝을 위해서는 많은 양의 데이터가 필요한데, 이미지를 분류할 때 최소 수천, 수만 장의 이미지가 요구된다.
- 둘째, 시간을 포함한 많은 비용이 든다.
- 라벨링 작업자가 많아질수록 일관되고 정확한 라벨링 작업이 어려워진다. - 얼마나 어렵고 오래 걸리는 작업인지 보여주는 실제 사례: 영국 경제지 파이낸셜타임스(FT)는 "자율주행차 알고리즘이 도로 표지판 등을 학습하려면 수천 시간 분량의 라벨링된 운전 동영상이 필요하다"며 "1시간짜리 동영상에 라벨링하는 데 8시간이 걸린다"고 했다. => 통상 AI 학습 시간의 약 80~90%를 라벨링 작업이 차지하는 것으로 알려졌다.
데이터 라벨링 툴을 사용했을 때, 이점은?(Advantage) |
|
이미지
툴 이름 |
설명 |
이미지 |
참고 링크 |
labelImg |
- 유명한 이미지 라벨링 툴 labelImg 이다. |
||
CVAT: Computer Vision Annotation Tool |
- 컴퓨터 비전 알고리즘의 데이터 레이블을 지정하는 데 사용되는 무료 오픈 소스 웹 기반 이미지 및 비디오 주석 도구이다. |
||
LabelMe |
- MIT 컴퓨터 과학 및 인공 지능 연구소에서 만든 프로젝트로 주석과 함께 디지털 이미지의 데이터 세트를 제공한다. |
||
Labelbox |
- Computer vision application을 구축하기 위한 데이터 annotation에서 가장 빠른 툴로 인식된다. - Labelbox를 사용하면 이미지와 텍스트의 기본 레이블을 간단하게 만들 수 있지만, point clouds, maps, videos or medical DICOM imagery와 같은 다양한 데이터 유형이 있으므로 맞춤형 레이블 인터페이스가 필요하다. 이를 위해 Labelbox는 사용자 지정 레이블 프런트 엔드를 쉽게 작성, 설치 및 유지 관리 할 수 있도록 설계하는데 도움을 준다. - labeling 결과를 csv, json 뿐만 아니라 일반적으로 많이 사용하는 데이터셋의 format(COCO, VOC, TFRecord) 등으로 export할 수 있어서 사용 중인 코드가 만약 저러한 format을 input으로 사용하도록 짜여 있는 경우 별도의 변환 과정 없이 쉽게 사용이 가능하다는 장점이 있다.
|
||
VoTT |
- 데이터 셋을 제작하는데 end-to-end support를 제공한다(자료처리 시스템 / 학습시스템에서 여러 단계의 필요한 처리과정을 한번에 처리합니다. 즉, 데이터만 입력하고 원하는 목적을 학습시키는 것을 뜻한다.)
|
||
imglab |
- dllib(이미지 처리 및 기계 학습, 얼굴인식 등을 할 수 있는 c++ 로 개발된 고성능의 라이브러리)이나 객체 탐지기를 학습시키기 위한 이미지 레이블링에 사용되는 웹 기반의 툴이다. |
|
|
YOLO Mark |
- 이미지 안의 객체를 사각형 박스로 표시한 레이어 안의 데이터를 레이블링 하는 툴이다. |
||
PixelAnnotationTool |
- 디렉토리 안의 이미지에 손으로 빨리 Data annotation을 도와주는 소프트웨어이다. |
||
OpenLabeling |
- YOLO v2 포맷에 에 필요한 학습 데이터 세트를 만들기 위한 Open Source labeling tool - Open CV를 사용한 후, SIFT와 Tracking algorithm을 활용하여 라벨링 작업을 쉽„게 한다. |
||
imagetagger |
- ImageTagger는 image labeling, verifying annotations, up- and downloading images/labels, managing users and teams, and the definition of image and label categories와 같이 이미지 라벨링에 필요한 통합적 인터페이스들을 웹 기반의 오픈소스 툴이다. |
||
Alturos.ImageAnnotation |
- Neural Networks를 위해 학습 데이터셋을 관리하는데 사용되고, 이미지들은 아마존의 S3 버킷과 같은 저장소에 저장이 된다. |
||
DeepLabel |
- 레이블링된 bounding box에 이미지를 annotation하는 cross-platform tool 이다. - use-case: 객체 담지 머신러닝 application을 위한 ground truth data를 라벨링하는 것이다.
- Windows, Linux and Mac에서 모두 적용할 수 있다. |
||
MedTagger |
- 의료 데이터셋을 라벨링하고 축적하는데 도움이 되는 소프트웨어 환경을 조성하는데 쓰인다. |
||
Turktools |
- Turktools는 Amazon Mechanical Turk에 대한 언어 조사를 구성하는 데 도움이되는 무료 오픈 소스 도구이다. - 이 도구를 사용하면 언어 문법 조사, 문장 완성 작업 및 사진 일치 작업을 포함한 광범위한 언어 작업 데이터셋을 만들 수 있다. |
||
Pixie |
- Pixie는 경계 상자, 다각형, 자유 그리기 및 시맨틱 분할 객체 레이블을 제공하는 GUI Annotation 도구이다. |
|
|
OpenLabeler |
- OpenLabeler는 데이터에 정보를 Annotation을 하기 위한 오픈 소스 응용 프로그램이다. - 인공 지능 및 딥 러닝 교육을 위해 PASCAL VOC 형식 XML 주석 파일을 생성할 수 있다. - 이 오픈 소스의 특별한 점은 TensorFlow와 같은 툴을 참고해서 정확성을 개선하고 Annotation 처리 속도를 높이는 기능이다. |
||
Anno-Mage: A Semi Automatic Image Annotation Tool |
- 사전 훈련 된 모델을 사용하여 80 개의 객체 클래스에 대한 Annotation을 제안하여 이미지 라벨링을 도와주는 반자동 이미지 주석 도구이다. - Keras나 TensrFlow가 사용될 수 있다. |
||
CATMAID |
|
|
|
makesense.ai |
- makesense.ai는 사진 라벨링을 위해 무료 온라인 도구이다. - 브라우저를 사용하기 때문에 복잡한 설치가 필요하지 않고, 운영 체제에서 실행을 할 수 있다.
|
||
LOST - Label Objects and Save Time |
- LOST는 특히 반자동 Annotation 파이프 라인을 모델링하여 Annotation 프로세스의 속도를 높이도록 설계하는데 도움이 된다.
|
||
annotorious |
- 이미지 Annotation을 위한 JavaScript 라이브러리를 제공하고, 몇 줄의 코드만으로 웹 페이지의 이미지에 그리기, 주석 달기 및 태그 지정 기능을 추가할 수 있다. |
|
|
sloth |
- 컴퓨터 비전 연구의 맥락에서 다양한 라벨링 작업을위한 다목적 도구를 제공한다. - 다양한 레이블 형식과 요구 사항이 있기 때문에 모든 레이블 작업을 처리할 수 있는 하나의 레이블 도구 구축하는 것은 사실상 어렵다. 이를 해결하기 위해 Sloth는 필요에 따라 레이블 도구를 신속하게 구성할 수 있는 프레임 워크 및 표준 구성 요소 집합이다. |
Sloth | |
이외의 이미지 라벨링 도구
툴 이름 |
이미지 |
참고링크 |
- RCNN 교육을 통해 이미지 주석을 최적화하는 베타 버전의 유망한 플랫폼이다 |
||
- 경계 상자와 다각형을위한 멋진 도구 - Mac에 최적화되어 있다 |
||
- 경계 상자가있는 이미지 주석을 포함하여 다른 주석 인터페이스가있는 자체 호스팅 백엔드를 제공합니다. |
||
- RotatedRect 형식의 경계 상자에 OpenCV를 사용하는 다른 오픈 소스 도구 |
||
- Cityscapes 데이터 세트에 대해 훈련 된 도구는 강화 학습을 통해 자율 주행 차량을위한 자동 레이블을 생성한다. |
https://kdj1018.tistory.com/entry/%EA%B8%B0%EC%88%A0-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%9D%BC%EB%B2%A8%EB%A7%81-%ED%88%B4-for-Machine-Leraning
출처 / 텍스트나 음성 등 나머지 툴
'AI > 딥러닝' 카테고리의 다른 글
DataSet, DataTable이란? (0) | 2021.06.04 |
---|---|
GAN 동작 원리 (참고 링크) (0) | 2021.04.21 |
GAN의 종류와 발전 (0) | 2021.04.13 |
GAN의 종류 (0) | 2021.04.13 |
S2FGAN 개인 공부 (0) | 2021.04.02 |
댓글