한국어 NLP 기초 — 토큰화에서 분류까지
형태소·서브워드 토크나이저 비교와 텍스트 분류 베이스라인을 빠르게 세웁니다.
참고 가격 960,000 KRW
결제는 사이트에서 진행되지 않습니다. 문의로 일정을 확인해 주세요.
과정 소개
한국어 데이터의 노이즈 유형을 직접 태깅해 보며 전처리 우선순위를 정합니다. 트랜스포머 파인튜닝은 소규모로만 시도합니다.
다루는 내용
- 토크나이저 비교 실험
- 라벨 노이즈 점검 시트
- 소형 분류 모델 vs 파인튜닝 비교
- 설명 가능한 오류 분석 표
- 개인정보 마스킹 패턴
기대할 수 있는 결과물
- 분류 베이스라인 노트
- 오류 분석 리포트
- 데이터 카드(텍스트)
질문과 답변
아니요. 분류·표현 학습 중심이며 LLM은 보조적으로만 다룹니다.
공개 샘플과 합성 예시를 제공합니다. 민감 데이터는 가져오실 수 없습니다.
대규모 생성 모델 학습, RAG 설계 심화는 다른 트랙입니다.
코호트 메모
-
토크나이저 비교표가 한눈에 들어와서 발표 자료로 썼습니다. 파인튜닝 파트는 속도가 빨랐습니다.
-
교육 기관 담당자 — 라벨 노이즈 시트를 팀에 공유했더니 검수 프로세스가 정리됐습니다.