티스토리 뷰

반응형

 

시간과 장소에 구애받지 않고 스마트폰, 노트북 하나로도 시작할 수 있는 부업이 있습니다. 바로 데이터 라벨링입니다. 부업을 할 수 있는, 작업량이 많은 사이트와 작업방법 등을 설명드리겠습니다. 디지털 노마드의 삶을 시작하려는 사람, 조금 더 여유로운 생활을 꿈꾸는 직장인과 다시 일을 시작하는 주부들에게 유용한 정보가 될 것입니다.

 

데이터 라벨링 작업방법

 

작업과정 도표
이미지: 캐시미션

 

데이터 라벨링은 사람이 인공지능을 위한 학습 자료를 만들어주는 작업입니다. 예를 들어 고양이가 나온 사진에 고양이만 표시한 뒤 ‘이렇게 생긴 게 고양이야’라는 이름표(라벨링)를 AI에 계속 보여주는 방법으로 이 작업을 반복하다 보면 AI는 ‘고양이’를 인식할 수 있게 됩니다. 데이터 라벨링은 작업 방식에 따라 크게 '수집'과 '가공' 2가지로 나뉩니다. '수집'은 말 그대로 ‘원천 데이터’를 확보하는 업무이며, 특정 대상의 사진·영상을 찍거나 목소리를 녹음해 기업에 제공합니다. 업무 특성상 사진 촬영과 녹음이 필수기 때문에 작업 대부분이 PC가 아닌 스마트폰을 통해 이뤄집니다. 수집한 자료를 보다 정교하게 다듬는 게 ‘가공’입니다. 가공은 데이터 유형에 따라 ① 이미지 바운딩: 사진에서 특정 대상을 박스로 그려내 추출하는 작업 ② 스켈레톤(뼈대) 추출: 동영상에 나오는 사람의 모습에 맞춰 뼈대 모양을 그리는 업무 ③ 지문 문장 요약: 음성 데이터를 정확한 문장으로 다듬는 과정 ④ 텍스트 태깅: 주어진 두 문장을 읽고 의미가 같은지 구분하는 작업, 4가지로 분류합니다.

 

데이터 라벨링 부업 사이트

데이터 라벨링 작업은 연중 내내 성수기라고 할 수 없으며, 비수기 때는 작업 물량이 확실히 적은 편입니다. 일반적으로 데이터 라벨링 성수기는 연중 하반기로 알려져 있는데 이는 정부 사업 프로젝트들이 본격적으로 시작되는 시기와 관련이 있습니다. 성수기에는 초보자에게도 적합한 일감이 많이 생기는 특징이 있으며, 비수기 동안에는 관련 교육을 받거나 필요한 기술을 습득하는 등의 준비를 하면 좋을 것 같습니다.

 

이미지
사이트 이동
접근성 성과 참여방법 및 특징
앱, PC 작업 작업중인 요원수
249,593 명
누적 작업데이터
91,213,909 건
- 화면구성이 쉽고 게임처럼 미션수행
- 해당 튜토리얼 일고 퀴즈 통과해야 참여가능

크아우드웍스
앱, PC 작업
재택작업
출근작업
활동중인 작업자
583,262명
총 작업 데이터
256,015,508건
총 지급 포인트
11,879,609,077원
- 다양한 프로젝트와 사용자가 많음
- 데이터라벨러 육성과정 시청, 퀴즈 통과 후 참여가능
- 훈련 프로젝트 참여시 관련 프로젝트 참여 기회

에이모
앱, PC 작업 - - 초보자는 어려울 수 있으나 익숙해지면 가장 편리함
- 모집이 빠르게 마감됨
- 프로젝트별 영상가이드 제공

레이블러
대부분
PC 작업
누적 지급액
61억원
- 프로젝트별 테스트 거쳐 선발

에이아이웍스
앱, PC 작업
재택작업
출근작업
- - 아카데미 별도 무료교육 가능
- 가이드 숙지 후 참여

 

 

데이터 라벨링이란?

데이터 라벨링은 인공지능이 데이터를 학습할 수 있도록 텍스트, 이미지, 오디오 등 다양한 데이터 유형에 라벨을 부여하는 작업을 의미합니다. 라벨러(labeler)는 이미지, 텍스트, 오디오 등에 주석을 달아 AI가 학습할 수 있도록 하며, 라벨링은 수동으로 이루어질 수도 있고, 경우에 따라 자동화 기술을 이용할 수도 있습니다. 데이터 라벨링은 작업의 정확도와 속도에 따라 수익이 달라질 수 있으며, 교육과 함께 투자하는 시간에 비례하여 수익을 기대할 수 있고 정부 지원 교육 프로그램을 통해 비용 부담 없이 시작할 수 있습니다. 데이터 라벨링의 정확도가 AI 모델의 성능을 결정짓기 때문에, 고품질의 데이터 라벨링은 AI 기술 발전에 매우 중요합니다. 데이터 어노테이션(Data annotation)과 데이터 라벨링(Data labeling)은 모두 데이터에 AI가 학습할 수 있는 분류, 태그처럼 데이터를 설명하는 메타 데이터(meta data)를 입력하는 것으로 유사하게 사용되는 단어입니다. 한국뿐 아니라 전 세계적으로 데이터 어노테이션과 데이터 라벨링이 혼용되어 사용되는 단어이지만, 구체적으로 살펴보면 조금 다른 의미를 가지고 있습니다.

- Data Annotation: 이미지 내에 특정 Object(BBox, Polygon, etc..)에 주석을 다는 일

- Data Labeling: 다수의 Annotation 된 데이터를 통칭하는 개념

데이터라벨링 작업 이미지
이미지: 캐시미션

 

데이터 라벨링 유형

 

1. 텍스트 라벨링

텍스트로 존재하는 정보를 컴퓨터가 이해할 수 있도록 변환하는 작업입니다. 좀 더 쉽게는 어디에 있는지, 무슨 의미인지, 어떤 의도인지 등을 지정하여 AI모델의 학습 데이터셋 구축에 사용하는 작업입니다. 텍스트 데이터 라벨링의 목표는 기계가 인간의 자연어를 이해하도록 지원하는 것입니다. 텍스트 데이터 전처리 및 텍스트 데이터 라벨링과 결합한 이 과정을 자연어 처리 또는 NLP라고 합니다. 텍스트 정보를 통해 AI모델 학습이 완료되면, AI는 스스로 텍스트에 주석을 달고 감정과 취향을 예측하는 데에 사용할 수 있습니다. 주로 감정 및 언어의 맥락, NTT 분석, 텍스트 분류, 언어 주석 등으로 활용되며, 이를 통해 사용자의 리뷰나 소셜미디어의 반응을 분류해 고객 반응을 살펴보는 데에도 활용됩니다. 또한 챗봇 및 가상 비서에서 일상적인 대화의 의도를 구체적으로 이해하기 위해 적극적으로 사용하고 있습니다.

 

(1) 감성 분석

감성 분석은 텍스트 데이터를 긍정, 부정 또는 중립으로 표시하여 텍스트에 숨겨진 태도와 감정을 평가합니다. 학습 데이터를 얻기 위해 사람 작업자는 모욕적이거나 민감한 키워드, 또는 신조어(비속어)에 태그를 직접 라벨링 함으로써 SNS나 전자상거래와 같은 웹 플랫폼의 감성을 평가하고 콘텐츠를 조정하는 역할을 맡습니다.

 

(2) 의도 데이터 라벨링

의도 데이터 라벨링은 텍스트를 요청, 명령 또는 확인과 같은 여러 범주로 분류하여 텍스트 데이터의 필요 또는 욕구를 분석합니다. 인간-머신 인터페이스의 대화가 증가하면서, 자연어와 사용자 의도를 모두 이해할 수 있는 머신의 능력이 강조되고 있습니다. 의도 데이터 라벨링은 의도를 요청이나 명령, 예약, 추천, 확인 등의 주요 범주로 구분합니다.

 

(3) 시맨틱 라벨링

시 맨틱 라벨링은 제품 목록을 개선하고 고객이 원하는 제품을 찾을 수 있도록 합니다. 이를 통해 고객은 더 쉽게 구매자로 전환됩니다. 시맨틱 라벨링 서비스는 제품 이름이나 검색 쿼리 내의 다양한 구성 요소에 태그를 지정함으로써 알고리즘을 학습시킵니다. 이는 개별 부분을 인식하고 전반적인 검색 관련성을 향상하는 데 도움이 됩니다.

 

(4) 개체명 인식(NER)

개체명 인식(NER)은 많은 양의 수동 라벨링 된 학습 데이터를 필요로 합니다. 에펜의 개체명 인식 기능은 광범위한 케이스에 활용됩니다. 전자상거래에서 다양한 주요 설명자를 식별하고 태그를 지정하거나 SNS에서 사람, 장소, 회사, 기관, 제목과 같은 개체에 태그를 지정할 수 있도록 하여 더 나은 타겟팅 광고 콘텐츠를 지원할 수 있습니다.

 

2. 이미지 라벨링

이미지 라벨링은 눈이 없는 컴퓨터를 위해 이미지의 구성요소를 설명하는 레이블을 입력하는 작업으로, 사람이 직접 입력하거나 컴퓨터에게 도움말을 지원받는 방법이 있습니다. AI모델을 개발하는 엔지니어에 의해 미리 결정된 레이블에 따라 이미지 전체에 태그를 지정하거나 분류하고, 이미지 속에 개별 개체를 표시하거나, 인식할 수 없는 이미지 부분을 처리하는 방법이 포함되어 있습니다. 이미지 라벨링은 Object Detection(객체 감지) , Classification(분류), Segmentation(분할) 등 Computer vistion(컴퓨터 비전) 모델 훈련에 필수적 작업입니다. 최근 자율주행 차량은 정교한 이미지 라벨링 작업에 의존하고 있습니다. 자동차가 만나는 모든 환경의 물체, 예를 들어 차량, 사람, 신호, 차선 등에 레이블을 붙이면 차량의 컴퓨터가 그것을 인식하고, 교통 상황에 따라 행동을 결정하게 만들 수 있습니다. 의료 분야에서도 매우 중요한 기술로 의료 영상 분석을 통해 빠르고 정확한 질병 진단이 가능하며, 의사들의 합의를 통해 신뢰도 높은 치료방식을 도출할 수 있습니다. 실제 산업에 적용할 때는 무엇보다 실시간성이 중요한 기준으로 떠오르고 있습니다.

 

(1) 객체감지(Object Detection)

객체 감지를 사용하면 이미지에서 라벨링 해야 하는 특정 개체가 라벨링 작업자에게 제공됩니다. 예를 들어 이미지가 탄산음료가 포함된 것으로 분류되면 이미지 내에서 탄산음료가 있는 위치를 보여주거나 특히 주황색 탄산음료가 있는 위치를 찾고 있는 경우 한 단계 더 나아갑니다. 객체 감지는 상자나 선의 사용에서 겹침을 허용하기 때문에 가장 정확한 방법은 아닙니다. 하지만 아직까지 가장 일반적으로 사용되며 상대적으로 빠른 데이터 라벨링이 가능합니다.

 

(2) 분류(Classification)

분류는 이미지 라벨링을 위한 가장 쉽고 빠른 방법으로 이미지에 하나의 태그만 적용합니다. 예를 들어 식료품점 선반의 일련의 이미지를 살펴보고 분류하고 어떤 것이 탄산음료가 있는지 없는지 식별할 수 있습니다. 이 방법은 위의 예와 같은 추상적인 정보를 캡처하거나 자동차가 사진에서 시간을 캡처하거나 하는 이미지 필터링에 적합합니다. 하나의 높은 수준의 라벨링을 제공하는 가장 빠른 이미지 라벨링이지만 이미지 내의 개체가 있는 위치를 나타내지 않는다는 단점이 있습니다.

 

(3) 시맨틱 분할(Segmentation)

시맨틱 분할은 이미지의 모든 구성 요소가 하나의 클래스에만 속하도록 하여 객체 감지의 중첩 문제를 해결합니다. 이는 AI 모델이 특정 물체가 가려져 있어도 인식하고 분류하는 방법을 가르치는 데 도움이 됩니다. 예를 들어 이미지의 일부를 가로막는 쇼핑 카트가 있는 경우 시맨틱 분할을 사용하여 주황색 탄산음료가 픽셀 수준까지 어떻게 보이는지 식별하여 모델이 여전히 주황색임을 인식할 수 있도록 할 수 있습니다.

 

3. 음성 라벨링

오늘날 자동 음성 인식(ASR) 모델은 오디오를 전사하는 프로세스를 간소화하여, 음성 언어를 이해하는 AI 세대를 가능하게 했습니다. 알렉사, 구글 어시스턴트 및 음성 인식을 사용하는 AI 기술 등 이미 많은 곳에서 활약하고 있습니다.

음성 어노테이션은 STT(Speech-to-Text)와 TTS(Text-to-speech)로 나눌 수 있습니다. STT는 음성을 텍스트로 변환하며, TTS는 텍스트를 다시 음성으로 변환하는 것을 의미합니다. STT의 경우 모델이 자신의 말을 듣고 텍스트로 정확히 변환하고 이해하는 것에 초점을 두고 있으며, TTS는 모델이 이해한 내용을 사람의 목소리처럼 자연어로 구현하는 것을 핵심으로 합니다. 유튜브의 자동 자막 생성이나 팟캐스트 및 라디오 프로그램에서 오디오 콘텐츠 생성에 적극적으로 활용되고 있습니다. 음성 데이터는 언어, 방언 및 화자에 대한 인구 통계학적 식별과 특정 발음 및 억양의 전사를 포함합니다.

 

* 참고: 에펜, 데이터헌트, 매일경제

 

 

 

제 2의 인생 준비, 돈 되는 취미 수공예 재택부업

요즘 부업으로 두 번째 월급을 버는 사람들이 많이 있습니다. 여가시간에 누구나 쉽게 취미생활을 통해 소득을 얻을 수 있고, 집에서 제작이 가능한 수공예 부업에 대해서 알려드리겠습니다. 수

dearpresent.tistory.com

 

 

반응형