머신 러닝 시스템을 구축하거나 평가한다면 언젠가는 똑같은 난관에 부딪히게 될 것입니다. 바로 레이블이 지정된 데이터입니다. 모델이 마법처럼 무엇이 무엇인지 알아낼 수는 없습니다. 사람, 정책, 그리고 때로는 프로그램이 모델을 가르쳐야 합니다. 그렇다면 AI 데이터 레이블링이란 무엇일까요? 간단히 말해, 알고리즘이 학습할 수 있도록 원시 데이터에 의미를 부여하는 작업입니다…😊
🔗 AI 윤리란 무엇인가
AI의 책임 있는 개발과 배포를 위한 윤리 원칙 개요.
🔗 AI에서 MCP란 무엇인가
모델 제어 프로토콜과 AI 동작 관리에서의 역할을 설명합니다.
🔗 엣지 AI란 무엇인가
AI가 엣지에 있는 장치에서 직접 데이터를 처리하는 방법을 다룹니다.
🔗 에이전트 AI란 무엇인가
계획, 추론, 독립적인 행동이 가능한 자율적인 AI 에이전트를 소개합니다.
AI 데이터 라벨링이란 무엇일까요? 🎯
AI 데이터 라벨링은 텍스트, 이미지, 오디오, 비디오 또는 시계열과 같은 원시 입력값에 사람이 이해할 수 있는 태그, 범위, 상자, 범주 또는 평점을 부여하여 모델이 패턴을 감지하고 예측할 수 있도록 하는 프로세스입니다. 자동차 주변의 경계 상자, 텍스트의 사람과 장소에 대한 엔티티 태그, 또는 챗봇 답변이 더 유용하다고 느끼는 선호도 투표 등을 생각해 보세요. 이러한 라벨링 없이는 전통적인 지도 학습은 결코 시작될 수 없습니다.
또한 '정답 데이터' 또는 '골드 데이터' 라는 용어도 들어보셨을 겁니다 . 이는 명확한 지침에 따라 합의된 답변으로, 모델 동작을 학습, 검증 및 감사하는 데 사용됩니다. 기초 모델과 합성 데이터가 보편화된 시대에도 레이블이 지정된 데이터 세트는 평가, 미세 조정, 안전성 검증, 그리고 롱테일 에지 케이스(즉, 사용자가 실제로 수행하는 특이한 상황에서 모델이 어떻게 작동하는지)를 확인하는 데 여전히 중요합니다. 세상에 공짜는 없지만, 더 나은 도구는 존재합니다.

좋은 AI 데이터 라벨링을 만드는 요소 ✅
솔직히 말해서, 좋은 라벨링은 가장 지루한 방식으로 작용합니다. 예측 가능하고, 반복적이며, 약간 과도하게 문서화된 느낌이 듭니다. 라벨링의 모습은 다음과 같습니다.
-
엄격한 온톨로지: 관심 있는 클래스, 속성, 관계의 명명된 집합입니다.
-
크리스탈 지침: 실제 사례, 반례, 특수 사례, 타이브레이크 규칙.
-
검토자 루프: 작업의 일부를 두 눈으로 살펴보는 것.
-
일치도 측정 지표: 주석자 간 일치도(예: Cohen의 κ, Krippendorff의 α)를 통해 일관성을 측정하는 것이지 분위기를 측정하는 것이 아닙니다. α는 레이블이 누락되었거나 여러 주석자가 서로 다른 항목을 다루는 경우 특히 유용합니다[1].
-
예외적 사례 정원 가꾸기: 이상하고 적대적이거나 희귀한 사례를 정기적으로 수집합니다.
-
편향 검사: 데이터 소스, 인구 통계, 지역, 방언, 조명 조건 등을 감사합니다.
-
출처 및 개인 정보 보호: 데이터가 어디에서 왔는지, 사용 권한, 개인 식별 정보(PII) 처리 방식(PII로 간주되는 것, 분류 방법, 보호 조치)을 추적합니다[5].
-
훈련에 대한 피드백: 레이블은 스프레드시트의 무덤에 묻히는 것이 아니라, 능동적인 학습, 미세 조정 및 평가에 피드백됩니다.
작은 고백 하나 하자면, 가이드라인을 몇 번이나 다시 쓰게 될 거예요. 당연한 거잖아요. 스튜에 양념을 하는 것처럼, 작은 변화도 큰 도움이 돼요.
간단한 현장 사례 하나: 한 팀이 사용자 인터페이스에 "결정 불가 - 정책 필요" 옵션을 하나 추가했습니다. 그러자 주석 작성자들이 추측에 의존하지 않게 되면서 합의율이 높아 , 결정 기록도 훨씬 더 명확해졌습니다. 지루함이 승리한 사례입니다.
비교표: AI 데이터 라벨링 도구 🔧
모든 내용을 담고 있지는 않으며, 의도적으로 표현이 다소 지저분할 수 있습니다. 가격 변동이 있을 수 있으니 예산을 편성하기 전에 항상 공급업체 사이트에서 확인하세요.
| 도구 | ~에 가장 적합함 | 가격 스타일(지시적) | 작동 원리 |
|---|---|---|---|
| 라벨박스 | 기업, CV + NLP 믹스 | 사용량 기반 무료 계층 | 훌륭한 QA 워크플로, 온톨로지, 측정항목, 확장성 처리가 매우 좋습니다. |
| AWS SageMaker 지상 진실 | AWS 중심 조직, HITL 파이프라인 | 작업당 + AWS 사용량 | AWS 서비스와 긴밀히 협력하고, 사람이 직접 참여하는 옵션과 견고한 인프라 후크를 갖추고 있습니다. |
| AI 확장 | 복잡한 작업, 관리되는 인력 | 맞춤형 견적, 단계별 | 고객 맞춤형 서비스와 툴링, 까다로운 상황에도 대처할 수 있는 강력한 운영. |
| 슈퍼애노테이트 | 비전이 강한 팀, 스타트업 | 티어, 무료 체험 | 세련된 UI, 협업 기능, 유용한 모델 지원 도구. |
| 신동 | 로컬 제어를 원하는 개발자 | 평생 라이선스, 좌석당 | 스크립팅 가능하고, 빠른 루프, 빠른 레시피 - 로컬에서 실행되며 NLP에 적합합니다. |
| 도카노 | 오픈소스 NLP 프로젝트 | 무료 오픈 소스 | 커뮤니티 중심, 배포가 간편하며 분류 및 시퀀스 작업에 적합 |
가격 책정 모델에 대한 현실 확인: 공급업체는 소비 단위, 작업당 요금, 계층, 맞춤형 기업 견적, 일회성 라이선스, 오픈 소스를 혼합하여 사용합니다. 정책은 변경될 수 있으므로, 조달 부서에서 스프레드시트에 숫자를 입력하기 전에 공급업체 문서를 통해 구체적인 내용을 직접 확인하십시오.
일반적인 라벨 유형과 빠른 정신적 그림 🧠
-
이미지 분류: 전체 이미지에 대한 하나 또는 여러 개의 라벨 태그.
-
객체 감지: 객체 주위로 경계 상자나 회전 상자를 배치합니다.
-
세분화: 픽셀 수준 마스크-인스턴스 또는 의미론적; 깨끗하면 이상하게 만족스럽습니다.
-
주요 특징점 및 자세: 관절이나 얼굴의 주요 부위와 같은 랜드마크.
-
NLP: 문서 라벨, 명명된 엔터티에 대한 범위, 관계, 공동 참조 링크, 속성.
-
오디오 및 음성: 전사, 화자 분리, 의도 태그, 음향 이벤트.
-
비디오: 프레임별 상자 또는 트랙, 시간적 이벤트, 작업 레이블.
-
시계열 및 센서: 윈도우형 이벤트, 이상치, 추세 양상.
-
생성적 워크플로: 선호도 순위, 안전 위험 신호, 진실성 점수, 기준 기반 평가.
-
검색 및 RAG: 질의-문서 관련성, 답변 가능성, 검색 오류.
이미지가 피자라면, 분할은 모든 조각을 완벽하게 자르는 것이고, 감지는 어딘가에 조각이 있다고 지적하는 것입니다.
워크플로우 해부학: 간략한 데이터에서 핵심 데이터까지 🧩
강력한 라벨링 파이프라인은 일반적으로 다음과 같은 모양을 따릅니다.
-
온톨로지를 정의합니다: 클래스, 속성, 관계, 허용되는 모호성.
-
초안 가이드라인: 예시, 예외 사례, 까다로운 반례.
-
파일럿 세트에 라벨을 붙이고, 수백 개의 예시에 주석을 달아서 허점을 찾습니다.
-
측정 일치도: κ/α를 계산하고 주석자가 수렴할 때까지 지침을 수정합니다[1].
-
QA 설계: 합의 투표, 심사, 계층적 검토 및 임의 검사.
-
생산 실행: 처리량, 품질, 드리프트를 모니터링합니다.
-
루프를 닫습니다. 모델과 제품이 발전함에 따라 기준을 다시 학습하고, 다시 샘플링하고, 업데이트합니다.
나중에 분명 도움이 될 팁: 모든 결정 사항을. 추가하는 모든 규칙과 그 이유를. 미래의 당신은 당시의 맥락을 잊어버릴 것이고, 그것 때문에 짜증을 낼지도 모릅니다.
인간 중심적 사고방식, 감독 부족, "라벨이 많을수록 클릭 수는 줄어든다"는 사고방식 🧑💻🤝
인간 참여형(HITL)은 훈련, 평가 또는 실시간 운영 전반에 걸쳐 사람들이 모델과 협업하여 모델 제안을 확인, 수정 또는 보류하는 것을 의미합니다. HITL을 활용하여 품질과 안전을 담당하는 동시에 작업 속도를 높일 수 있습니다. HITL은 신뢰할 수 있는 AI 위험 관리(인간 감독, 문서화, 모니터링)의 핵심 관행입니다. [2]
Weak Supervision 은 다르지만 상호 보완적인 기법입니다. 프로그래밍 규칙, 휴리스틱, 원격 감독 또는 기타 노이즈가 있는 소스가 대규모로 임시 레이블을 생성한 후 노이즈를 제거합니다. 데이터 프로그래밍은 여러 노이즈가 있는 레이블 소스(일명 레이블링 함수)를 결합하고 정확도를 학습하여 더 높은 품질의 학습 세트를 생성하는 방식을 대중화했습니다[3].
실제로 고속 팀은 이 세 가지를 모두 활용합니다. 골드 세트에 대한 수동 라벨링, 부트스트랩에 대한 약한 감독, 그리고 일상 업무의 속도를 높이기 위한 HITL입니다. 이는 부정행위가 아니라 기술입니다.
능동 학습: 다음으로 가장 좋은 라벨을 선택하세요. 🎯📈
능동 학습은 일반적인 흐름을 뒤집습니다. 데이터를 무작위로 샘플링하여 레이블을 지정하는 대신, 모델이 가장 유익한 예시, 즉 불확실성이 높거나, 의견 불일치가 심하거나, 대표성이 다양하거나, 결정 경계 근처에 있는 지점을 요청하도록 합니다. 좋은 샘플링을 통해 레이블링의 낭비를 줄이고 영향에 집중할 수 있습니다. 딥러닝을 활용한 최신 설문조사는 오라클 루프가 잘 설계되었을 때 레이블이 적으면서도 뛰어난 성과를 보였습니다[4].
드라마 없이 시작할 수 있는 기본적인 요리법:
-
작은 시드 세트로 훈련하세요.
-
라벨이 없는 풀에 점수를 매겨보세요.
-
불확실성이나 모델 불일치에 따라 상위 K를 선택합니다.
-
라벨을 붙이고, 재교육하고, 적당한 횟수로 반복하세요.
-
노이즈를 쫓지 않도록 검증 곡선과 일치 지표를 살펴보세요.
월별 라벨링 비용이 두 배로 늘어나지 않고도 모델이 개선되면 제대로 작동하고 있다는 것을 알 수 있습니다.
실제로 효과가 있는 품질 관리 🧪
바다를 끓일 필요는 없습니다. 다음 사항을 확인하세요.
-
골드 질문: 알려진 항목을 주입하고 라벨러별 정확도를 추적합니다.
-
판정과의 합의: 두 개의 독립적인 라벨과 의견 불일치에 대한 검토자.
-
주석자 간 일치도: 주석자가 여러 명이거나 레이블이 불완전한 경우 α를 사용하고 쌍의 경우 κ를 사용합니다. 단일 임계값에 집착하지 마십시오. 컨텍스트가 중요합니다[1].
-
지침 개정: 반복되는 실수는 대개 주석이 부족한 것이 아니라 모호한 지침을 의미합니다.
-
드리프트 검사: 시간, 지역, 입력 채널에 따른 라벨 분포를 비교합니다.
지표를 하나만 선택한다면 동의를 선택하세요. 이는 상태를 빠르게 알려주는 신호입니다. 약간 잘못된 비유지만, 라벨러가 정렬되지 않으면 모델이 불안정하게 돌아가는 것입니다.
인력 모델: 사내, BPO, 크라우드 또는 하이브리드 👥
-
사내: 민감한 데이터, 세부적인 도메인, 빠른 교차 기능 학습에 가장 적합합니다.
-
전문 공급업체: 일관된 처리량, 숙련된 QA, 다양한 시간대에 걸친 서비스 제공.
-
크라우드소싱: 작업당 비용은 저렴하지만, 강력한 자원 관리와 스팸 방지 대책이 필요합니다.
-
하이브리드: 핵심 전문가 팀을 유지하고 외부 역량을 강화합니다.
무엇을 선택하든 시작, 가이드라인 교육, 교정, 그리고 잦은 피드백에 투자하세요. 세 번의 재라벨링 과정을 강요하는 값싼 라벨은 결코 저렴하지 않습니다.
비용, 시간 및 ROI: 간단한 현실 확인 💸⏱️
비용은 인력, 플랫폼, QA로 구분됩니다. 대략적인 계획을 위해 다음과 같이 파이프라인을 구성해 보세요.
-
처리량 목표: 라벨 부착기 1대당 하루 처리량 × 라벨 부착기 수.
-
QA 오버헤드: 이중 라벨링 또는 검토 비율.
-
재작업 비율: 가이드라인 업데이트 후 재주석 작업에 드는 예산입니다.
-
자동화 리프트: 모델 지원 사전 라벨이나 프로그래밍 규칙은 수동 작업을 상당한 규모로 줄일 수 있습니다(마법적이진 않지만 의미 있는 결과입니다).
조달 부서에서 숫자를 요구하면 추측이 아닌 모델을 제공하고 지침이 안정됨에 따라 계속 업데이트하세요.
적어도 한 번은 겪게 될 함정과 이를 피하는 방법 🪤
-
너무 많아져서소설처럼 늘어납니다. 의사결정 트리와 간단한 예시를 통해 해결하세요.
-
클래스 비대화: 경계가 모호한 클래스가 너무 많습니다. 병합하거나 정책을 통해 "기타"를 엄격하게 정의하세요.
-
속도에 대한 과도한 인덱싱: 급하게 입력한 라벨은 학습 데이터를 조용히 오염시킵니다. 골드를 삽입하고, 최악의 기울기를 속도 제한합니다.
-
도구 종속성: 내보내기 형식이 문제입니다. JSONL 스키마와 멱등 항목 ID를 조기에 결정하세요.
-
평가를 무시하는 경우: 평가 대상 집합에 먼저 레이블을 지정하지 않으면 무엇이 개선되었는지 확실히 알 수 없습니다.
솔직히 말해서, 가끔은 되돌아갈 수도 있어요. 괜찮아요. 중요한 건, 되돌아간 이유를 적어서 다음에는 의도적으로 되돌아갈 수 있게 하는 거예요.
미니 FAQ: 빠르고 솔직한 답변 🙋♀️
질문: 라벨링과 주석은 다른 건가요?
답변: 실제로 사람들은 이 둘을 혼용해서 사용합니다. 주석은 표시하거나 태그를 붙이는 행위입니다. 라벨링은 종종 QA 및 가이드라인을 따르는 기본 사고방식을 의미합니다. 뭐, 감자죠.
Q: 합성 데이터나 자기 지도 학습 덕분에 레이블링을 건너뛸 수 있나요?
A: 건너뛸 수는 없고 줄일 수 있습니다 . 평가, 가드레일, 미세 조정 및 제품별 동작을 위해서는 여전히 레이블링된 데이터가 필요합니다. 약한 지도 학습은 수동 레이블링만으로는 충분하지 않을 때 규모를 확장할 수 있습니다[3].
Q: 검토자가 전문가인 경우에도 품질 지표가 필요한가요?
A: 예. 전문가도 의견이 다릅니다. 모호한 정의와 애매한 클래스를 찾기 위해 일치 지표(κ/α)를 사용한 다음 온톨로지 또는 규칙을 강화합니다[1].
Q: 인간 참여형(human-in-the-loop)은 단순히 마케팅인가요?
A: 아니요. 인간이 모델 동작을 안내하고, 수정하고, 평가하는 실용적인 패턴입니다. 신뢰할 수 있는 AI 위험 관리 관행 내에서 권장됩니다[2].
질문: 다음에 무엇을 레이블링할지 우선순위를 어떻게 정합니까?
답변: 능동 학습으로 시작하세요. 가장 불확실하거나 다양한 샘플을 가져와서 각각의 새 레이블이 최대의 모델 개선을 제공하도록 하세요[4].
현장 노트: 작은 것들이 큰 변화를 가져온다 ✍️
-
저장소에 살아있는 분류 파일을 보관하세요 . 코드처럼 다루세요.
-
가이드라인을 업데이트할 때마다 전후 예시를 저장하세요 .
-
작지만 완벽한 금 세트를 만들고 오염으로부터 보호하세요.
-
교정 세션 순환 : 10개 항목을 표시하고, 자동으로 레이블을 지정하고, 비교하고, 논의하고, 규칙을 업데이트합니다.
-
추적 라벨러 분석은 친절하고 강력한 대시보드를 제공하며, 전혀 부끄러워할 필요가 없습니다. 악당이 아닌 교육 기회를 찾을 수 있을 겁니다.
-
모델 기반 제안을 점진적으로 추가하세요 . 사전 레이블이 잘못되면 사람의 작업 속도를 늦춥니다. 하지만 사전 레이블이 자주 맞으면 마법과 같습니다.
마지막으로: 라벨은 제품의 기억입니다 🧩💡
AI 데이터 라벨링의 핵심은 무엇일까요? 모델이 세상을 어떻게 바라봐야 하는지, 한 번에 하나씩 신중하게 결정하는 방식입니다. 제대로 하면 이후의 모든 과정이 수월해집니다. 더 높은 정밀도, 더 적은 회귀, 더 명확한 안전성 및 편향 논의, 더 원활한 데이터 전달이 가능해집니다. 엉성하게 하면 모델이 왜 제대로 작동하지 않는지 계속 질문하게 될 것입니다. 정답은 데이터세트에 잘못된 이름표가 붙어 있을 테니까요. 모든 것에 대규모 팀이나 고급 소프트웨어가 필요한 것은 아니지만, 모든 것에는 세심한 주의가 필요합니다.
너무 길어서 다 읽지 않았어요: 명확한 온톨로지에 투자하고, 명확한 규칙을 작성하고, 합의도를 측정하고, 수동 및 프로그래밍 레이블링을 혼합하고, 능동적 학습을 통해 최적의 다음 항목을 선택하세요. 그리고 반복하세요. 또 반복하고, 또 반복하세요… 그러면 이상하게도 즐거워질 거예요. 😄
참고 자료
[1] Artstein, R., & Poesio, M. (2008). 전산언어학을 위한 코더 간 일치도. 전산언어학, 34(4), 555–596. (κ/α 및 결측 데이터를 포함한 일치도 해석 방법을 다룹니다.)
PDF
[2] NIST(2023). 인공지능 위험 관리 프레임워크(AI RMF 1.0). (신뢰할 수 있는 AI에 대한 인간 감독, 문서화 및 위험 관리)
PDF
[3] Ratner, AJ, De Sa, C., Wu, S., Selsam, D., & Ré, C. (2016). 데이터 프로그래밍: 대규모 훈련 세트를 빠르게 생성하기. NeurIPS. (약한 지도 학습 및 노이즈 레이블 제거에 대한 기초적 접근 방식)
PDF
[4] Li, D., Wang, Z., Chen, Y., et al. (2024). 딥 액티브 러닝에 대한 조사: 최근 발전과 새로운 지평. (레이블 효율적 액티브 러닝에 대한 증거와 패턴.)
PDF
[5] NIST(2010). SP 800-122: 개인 식별 정보(PII)의 기밀성 보호 가이드. (PII로 간주되는 사항과 데이터 파이프라인에서 PII를 보호하는 방법)
PDF