원셀프월드 | 1SelfWorld


광고상품 선호 기반 사용자 세그먼트 정의 및 퀴즈 콘텐츠 리텐션-매출 기여 분석

프로젝트 소개

원셀프월드는 web3 기반 퀴즈형 앱테크 앱 myB를 운영중입니다. 본 프로젝트는 유저 앱 로그 및 행동 데이터를 활용해 광고 상품 선호 기반 사용자 세그먼트를 정의하고, 추가적으로 퀴즈 콘텐츠 리텐션 및 매출 기여 분석 모델링을 목표로 하였습니다. 다양한 모델링 방법론 및 사후분석이 동시에 이루어진 DA + DS 프로젝트였습니다.
 
세부 목표:
1-1. 광고 선호 기반 유저 세그먼트 정의
1-2. 세그먼트 결과 해석 및 사후 분석
1-3. 콜드스타트 유저 세그먼트 분류 모델링

2-1. 퀴즈 선호 및 행동 기반 리텐션 예측 모델링
2-2. 퀴즈 선호 및 행동 기반 매출 기여 예측 모델링
2-3. 사후 분석 및 액션 플랜 제시
로드맵
Screenshot_2025-10-26_at_5.55_.00 PM_.png
진행 프로세스

주제 1. 광고 상품 선호 기반 유저 세그먼트 정의 및 콜드스타트 모델링

광고 상품 선호 기반 유저 세그먼트를 정의하고, 다양한 사후분석으로 세그먼트 인사이트를 도출한다.
또한, 초기 유저에 대한 콜드스타트 모델링을 통해 초기 유저의 세그먼트 분류를 진행한다.

(1) 인앱 데이터 EDA를 통해 광고 상품 및 참여를 정의하고, 클러스터링을 통해 유저 세그먼트를 정의한다.
- 인앱 도메인 지식 획득 및 EDA
- 광고 상품 정의
- Tf-Idf Score를 활용한 K-means 클러스터링
- 클래스 불균형 해소를 위해 대/중/소분류로 다른 차원의 세그먼트 정의
- 세그먼트 결론 도출 및 사후 분석
- 유저 세그먼트 분류 로직을 트리 모델로 근사

(2) 초기 유저에 대한 콜드 스타트 유저 세그먼트 분류 모델링을 진행하고, 모델에 대한 해석을 진행한다.

- 유저 세그먼트 별 초기 행동 EDA
- 유저 세그먼트 콜드 스타트 모델링
- feature 정의 및 전처리 - > LightGBM 모델링


주제 2. 유저 퀴즈 콘텐츠 취향 기반 리텐션 및 매출 기여 분석

유저의 취향/행동을 정의하고, 리텐션 및 매출기여에 대한 영향을 모델링한다.
리텐션 및 매출기여에 핵심적인 특성들을 분석하고, 이를 기반으로 하는 액션 플랜을 제시한다.

(1) 리텐션 및 매출 기여를 정의하고, 관련 모델링을 진행한다.

- retention, ltv 관련 데이터 EDA
- feature 정의 및 전처리 (Enthrophy, Lift 기반 지표 도입)
- retention 및 ltv 모델링 (LightGBM, 2-step Classification, NLP 등)

(2) 모델의 성능 및 결과에 대한 정성/정량적 사후 분석을 진행하고, 이를 기반으로 하는 액션 플랜을 제시한다.

- retention, ltv 모델 사후 분석 및 모델 인사이트 도출
- crm 및 a/b test 관련 인사이트, 액션 플랜 제시


성과 및 인사이트

주제 1. 광고 상품 선호 기반 유저 세그먼트 정의 및 콜드스타트 모델링
  1. 유저 실제 행동지표를 이용한 광고 선호 기반 유저 세그먼트 분류 정의
  2. 광고 선호 기반 유저 세그먼트 분류 정의 / 20% 매출 기여군에서 세부 분류를 40%까지 끌어올림
  3. 세그먼트 결과를 볼 수 있는 max depth = 5의 단순 룰베이스 트리 모델 구현 (정확도 95%)
  4. NLP 모델을 활용하여 퀴즈 내용에 따른 카테고리 재정의
  5. 리텐션 생존 곡선, 일 매출 기여 곡선(Daily LTV) 시각화 및 행동성 등의 추가 metric 지표화

주제 2. 유저 퀴즈 콘텐츠 취향 기반 리텐션 및 매출 기여 분석
  1. 유저 행동/로그 데이터로부터 202개의 feature 정의 및 87% accuracy의 cold start 모델 개발
  2. 퀴즈 관련 feature를 input으로 넣은 model과 전체 feature를 input으로 넣은 model 간의 shap 분석을 통해 비교, 특징적 feature 도출
Screenshot_2025-10-23_at_7.26_.07 PM_.png
shap_개선_2.png

PM 소회

 원셀프월드와 프로젝트를 진행하며 좋았던 점은 무엇인가요?


  1. 높은 자유도
    단편적인 모델링이 아닌, 유저 경험과 비즈니스 구조를 통합적으로 이해한 뒤 다양한 아이디에이션과 시도들을 진행하고자 노력하였습니다. 사측에서도 다양한 시도들을 믿고 지원해주셨고, 더 적극적이고 재미있는 프로젝트가 되었던 것 같습니다.
  2. 빠른 커뮤니케이션
    사측의 명확한 피드백, 빠른 커뮤니케이션 속도는 프로젝트를 효율적으로 진행할 수 있었던 큰 요인이었습니다. 짧은 프로젝트였음에도 pm 및 팀원 - 기업 간 상호 이해도가 빠르게 정착되었고, EDA - > 모델링 - > 해석 및 피드백의 사이클이 빠르게 진행될 수 있었습니다

 프로젝트 진행 중 겪었던 가장 큰 어려움은 무엇이었나요? 이를 어떻게 해결했나요?
 ​
  1. 클래스별 표본수 불균형
    세그먼트 클래스별 유저 수의 차이가 극단적이었습니다. 이를 해결하고자 대분류/중분류/소분류로 또 다른 세그먼트 차원을 만들어, 세그먼테이션을 smoothing을 하고자 노력하였습니다. 이 과정에서 Rule-based와 통계적 기법이 적절히 혼합되었습니다. 

 이번 경험을 통해 어떤 인사이트나 역량을 얻으셨나요?

  1. 도메인 지식의 중요성
    도메인 지식의 중요성을 다시 한 번 체감하였습니다. 앱 기반 데이터들을 많이 다루다 보니, '이 데이터는 어떠한 의미가 있을까?'에 대한 의사결정을 자주 했어야 했습니다. 이 때, 초반부터 앱 이용을 다양하게 하면서 앱에 대한 지식을 쌓고 마케팅의 기본적인 지식을 공부하는 팀원들을 보고 많이 배웠던 것 같습니다. 데이터 분석은 아무렇게나 모델링을 해서 성능이 잘 나오는 것이 능사가 아니라 확실한 가설에서 시작하여 설명 가능한 결과의 도출까지의 논리가 중요하다고 생각합니다. 이때, 가설과 논리에 도메인 지식은 핵심적인 요소입니다. 앞으로 프로젝트를 진행할 때도, 도메인 지식의 중요성을 항상 인지하며 임할 계획입니다.
향후 유사한 프로젝트를 진행할 학회원들에게 전하고 싶은 조언이 있나요?
  1. 요약 및 정리의 중요성
    최종 발표 자료를 만들면서 느꼈지만, 수많은 아이디어와 업무 속에서 ‘무엇을 최종적으로 전달할지’ 고민될 때가 많습니다. 이럴 때, 각 업무마다 무슨 생각을 했고 어떤 결론에 도달했는지를 쉬운 언어로 정리해두는 습관은 큰 도움이 된다고 생각합니다. 이런 정리는 단순한 기록을 넘어, 각자의 사고를 명확하게 구조화하는데 도움을 주기도 합니다. 복잡한 Task를 단 한두 줄로 요약한다는 건 본질을 파악하는 능력이 필요하기 때문입니다. 회사의 방향, 프로젝트의 목적, 각 Task의 의미를 매번 한두 줄로 깔끔하게 정리해두면 프로젝트의 방향성을 잃지 않고, 나중에 회고나 공유문서를 작성할 때도 의도와 맥락을 다시 복원할 수 있습니다. 처음엔 귀찮고 사소해 보여도, 이 작은 정리들이 쌓여 결국 프로젝트의 히스토리가 된다고 생각합니다. 초반부터 팀원들과 이러한 요약 및 정리 로직을 공유한다면 프로젝트 전반에서 큰 도움이 될 것이라 생각합니다!