텍스트 분류에서 가장 흔한 병목은 모델이 아니라 라벨입니다. 특히 한국어는 띄어쓰기·어미 변화 때문에 주석자 간 해석 차이가 큽니다.
첫 단계는 이중 검수 비율을 정하는 것입니다. 전체가 아니라 불일치가 잦은 클래스만 골라도 효과가 큽니다. 둘째, 애매한 문장은 별도 버킷으로 빼 두고 모델이 아니라 정책으로 처리할지 논의합니다.
셋째, 소수 클래스는 과대표집이 아니라 정의 자체를 다시 쓰는 경우가 많습니다. "불만"과 "문의" 경계가 모호하면 모델이 아무리 좋아도 지표가 흔들립니다.
이 글의 방법은 모든 도메인에 완벽히 맞지 않을 수 있습니다. 의료·법률처럼 규제가 강한 영역에서는 내부 컴플라이언스 팀과 별도 협의가 필요합니다.