주제 1. 상담 데이터 분석을 위한 고성능 STT 모델 개발
기존 상용 STT 활용 환경의 한계를 보완하고, 365mc의 상담 특수성이 반영된 고정밀 화자 분리 및 텍스트 변환 파이프라인을 구축함으로써 상담 데이터 분석에 적합한 기반을 마련한다.
주제 1-1. 기존 STT 활용 환경의 한계 진단
- 상용 STT 도구(Clova Note 등) 사용 시 질문-답변 단일 화자 병합 및 짧은 겹침(Overlap) 구간에서의 화자 분리 오류 빈발 확인.
- '무한람스' 등 도메인 특화 용어의 오인식 및 표기 일관성 부족 문제 식별.
- IB 데이터 내 긴 공백, 잡담, 비상담성 노이즈 혼입으로 인한 분석 난이도 확인.
주제 1-2. 한국어 겹침 음성 합성 데이터 생성
- 데이터 부족 문제 해결을 위해 SparseKMix 알고리즘 기반의 한국어 겹침 음성 합성 데이터 자체 생성.
- Clean 음성 데이터(KSponSpeech)와 Noise 데이터(WHAM!)를 합성하고 인위적 겹침 구간을 생성하여 모델 학습용 고품질 데이터셋 확보.
주제 1-3. 화자분리 + STT 통합 파이프라인 구축
- 화자 분리(Speaker Diarization): MossFormer2 모델에 LoRA 튜닝을 적용하여 화자 분리 성능 고도화.
- STT 모델: Whisper large-v3 모델을 도입하여 고정밀 음성-텍스트 변환 구현
- LLM 후처리: GPT-4o-mini를 활용해 도메인 전문 용어를 교정하고, 대화 맥락을 고려하여 상담사와 고객 간 턴테이킹(Turn-taking) 정교화
주제 2. OB 상담 전환율 상승 전략 도출
OB(Outbound) 단계의 고객 메타데이터와 상담 음성/텍스트 데이터를 다각도로 분석하여, 고객의 니즈를 정확히 파악하고 내원(예약)으로 연결되는 핵심 소통 방식을 발굴한다.
주제 2-1. OB 고객 메타데이터 분석
- 기초 통계 및 전환율 Baseline을 수립하고, 고객 신체 정보 및 생활 습관과 전환율 간의 상관관계를 Chi-square test로 검증.
- 상담 신청 회차별 차이를 Mann-Whitney U test로 분석하여 고관여 고객 특성 정의.
- 변수 간 상호작용을 고려한 교호작용 로지스틱 회귀분석 수행.
주제 2-2. OB 상담사 음성 피처 분석
- 상담사의 음성적 특징(Tone, Speed, Silence ratio 등)이 전환 성패에 미치는 영향 분석.
- 전환 여부에 따른 피처별 유의미한 차이를 t-test 및 Mann-Whitney U test로 검증.
- 로지스틱 회귀분석을 통해 각 음성 피처가 전환 성공률에 미치는 영향력 정량화.
- ML 기반 전환 예측 모델 설계 및 SHAP 분석을 통한 변수의 비선형적 기여도 해석.
주제 2-3. OB 상담 STT 데이터 분석
- 상담 내용을 Topic(주제), Intent(의도), Flag(시그널) 단위로 태깅하여 데이터 구조화.
- Intent 분포 및 Flag별 상담사 대응 전략, 내원 제안 시점을 분석하여 Flag 기반의 고도화된 상담 전략 수립.
주제 2-4. OB 고객 메타데이터 + 상담 STT 연계 분석
- 고객 메타데이터와 부정 신호(Negative Flag) 발생 비중을 연계 분석하여 전환율 패턴 도출.
주제 3. IB 상담 전환율 상승 전략 도출
IB(Inbound) 단계에서 고객의 상태, 관심사, 질문 유형에 따라 고객이 보다 합리적인 시술/수술 판단을 내릴 수 있도록 지원하는 상담 전략 요소를 도출하고, 상담 품질과 고객 만족도를 함께 향상시킬 수 있는 방향을 제언한다.
주제 3-1. IB 고객 메타데이터 분석
- 고객에게 추가적인 가치를 제공할 수 있는 최적 시술 제안(Upselling)의 조작적 정의 수립.
- 병원 선택 요인 등 메타데이터 분석을 통해 맞춤형 제안이 가능한 타겟 고객군 식별.
주제 3-2. IB 상담 STT 데이터 분석
- SBERT 문장 임베딩 및 키워드 분석을 통해 고객 부정 시그널과 상담사 대응 유형을 분류하고, 로지스틱 회귀로 통계적 검증 수행.
- 향후 분석 정합성 제고를 위한 데이터 적재 프로세스 개선(잡담 제거, 녹음 구간 준수 등) 제언.