쿠키 | Kooky


K-pop 아티스트의 도시별 인기지수 산출 모델 고도화

프로젝트 소개

KOOKY는 K-pop 아티스트들의 도시별 ‘인기지수’를 정량적으로 정의하고 고도화한 DS 모델링 프로젝트입니다. 기존 지표의 한계를 보완하기 위해 출발했으며, 최종적으로 검증 가능한 두 가지 모델을 개발하여 도시별 인기지수를 객관적으로 측정할 수 있는 기반을 마련했습니다.
 
세부 목표:
1. 지도 학습 기반 예측 모델 설계
2. 비지도 학습 기반 추천 모델 설계
로드맵
unnamed_1.png
진행 프로세스

주제 1. 지도학습기반 예측 모델 설계

(아티스트, 도시, 시기)를 input으로 받아 학습 데이터를 바탕으로 인기지수를 예측하는 지도학습 기반 모델을 설계한다.

(1) 회귀 기반 트리 모델을 주 모델로 활용하며, 과적합 방지 및 feature의 영향 방향에 제약을 둘 수 있도록 설계한다.
  1. 단조성(Monotonicity) 만족: feature 값이 증가할 때 예측값도 일정하게 증가(또는 감소)하도록 constraint 부여
  2. 외삽(Extrapolation)에서의 보수성: 데이터가 존재하지 않는 아티스트에 대해서는 보수적으로 인기지수를 산출하도록 설계
(2) DB 구축 및 API 호출 자동화를 통해 데이터가 지속적으로 업데이트될 수 있도록 프로세스를 구성한다.


주제 2. 비지도학습 기반 추천 모델 설계

(아티스트, 도시, 시기)를 input으로 받아 주어진 데이터를 바탕으로 인기지수가 유사한 아티스트를 검색 및 추천하는 비지도학습 기반 모델을 설계한다.

(1) 유사도 계산 로직을 세 가지 방식으로 구분한다.
  1. Value Data: 인스타그램 누적 팔로워 수, Spotify 팔로워 수 등 절대적 인기 수준 지표 → Mahalanobis 거리 활용
  2. Ratio Data: 인스타그램 팔로워 성별 비율, Spotify 팔로워 국가별 비율 등 비율 지표 → JSD(Jensen-Shannon Divergence) 활용
  3. Geo Data: 도시 인구, GDP, 종교 분포 등 지리적 특성 → 코사인 유사도 활용
(2) DB 구축 및 API 호출 자동화를 통해 데이터가 지속적으로 업데이트될 수 있도록 프로세스를 구성한다.


성과 및 인사이트

주제 1. 지도학습기반 예측 모델 설계
  1. (아티스트, 도시, 시기)를 input으로 받아 해당 set의 인기지수를 산출하는 정량적 검증 가능 모델을 제시하였다.
  2. API 호출 및 데이터 업데이트 자동화 로직을 통해 유지보수가 가능하도록 하여 실무 적용 가능성을 높였다.

주제 2. 비지도학습 기반 추천 모델 설계
  1. (아티스트, 도시, 시기)를 input으로 받아 해당 set과 유사한 인기지수의 (아티스트, 도시, 시기) set을 output으로 반환하는 모델을 제시하였다.
  2. API 호출 및 데이터 업데이트 자동화 로직을 통해 유지보수가 가능하도록 하여 실무 적용 가능성을 높였다.

PM 소회

 쿠키와 프로젝트를 진행하며 좋았던 점은 무엇인가요?


  1. 높은 자유도
    사측은 2023년도 그로스해커스와 프로젝트에 큰 만족을 표하셨고, 이번에도 높은 기대를 가지고 계셨습니다. 덕분에 다소 실험적인 시도를 하면서도 신뢰와 지원을 받을 수 있었고, 필요한 데이터 또한 적극적으로 제공해주셨습니다. 이러한 환경 속에서 팀원들과 함께 다양한 시각에서 문제를 바라보고 해결해 나가는 소중한 경험을 쌓을 수 있었습니다.
  2. 전반적 모델링 프로세스 경험
    이번 프로젝트는 단순히 주어진 데이터로 모델을 만드는 것을 넘어, 데이터 수집부터 결과 도출, 그리고 자동화까지 하나의 완결된 과정을 직접 수행한 경험이었습니다. 특히 BigQuery와 같은 기존 데이터 저장소를 활용하는 것이 아니라, 저희가 직접 수집한 데이터를 기반으로 진행했기에 데이터 저장소 구축, 통합을 위한 전처리, 외부 데이터 EDA 및 활용 등 데이터 분석의 전 과정을 한 프로젝트 안에서 경험할 수 있었습니다. 이를 통해 데이터 사이언스 워크플로우 전반에 대한 이해와 역량을 크게 확장할 수 있었습니다.
.

 프로젝트 진행 중 겪었던 가장 큰 어려움은 무엇이었나요? 이를 어떻게 해결했나요?
 ​
  1. 데이터 편향성
    데이터를 직접 수집해 사용하다 보니 편향된 데이터가 상당수 존재했습니다. 특히 저희 주제인 ‘인기지수’ 정의와 밀접하게 관련된 데이터에서 큰 편향이 드러나, 프로젝트 중반에는 인기지수를 아예 다시 정의해야 하는지 고민할 정도였습니다. 하지만 완전한 데이터도, 완벽한 예측도 현실에는 존재하지 않는다는 점에 착안해, “완벽하지 않더라도 말은 되게 만들자”라는 방향으로 전환했습니다. 엄밀한 수학적 논리만을 추구하기보다, 실제 비즈니스 환경에서 활용 가능한 ‘괜찮은 모델’을 만드는 데 집중했습니다.
    작은 것을 버리고 큰 것을 취하는 전략을 통해, 수학적으로 완벽하지 않더라도 보수성을 유지하고 단조성을 만족하는 모델을 구현했습니다. 이를 통해 때로는 일부를 포기함으로써 오히려 더 설득력 있는 결과를 만들 수 있음을 경험했습니다.

 이번 경험을 통해 어떤 인사이트나 역량을 얻으셨나요?

  1. 'PM'으로서의 배움
    데이터 분석과 모델링적 인사이트도 많이 얻었지만, 개인적으로는 ‘PM’으로서의 배움이 가장 컸던 프로젝트였습니다. 처음에는 부족한 지식 탓에 이해하는 데 급급하며 스스로 ‘PM 아닌 PM’ 같다고 느끼기도 했습니다. 그러나 시간이 지나면서 조금씩 역할을 찾아갈 수 있었습니다. 무엇보다 중요한 깨달음은 ‘내려놓기’였습니다. 모든 수학적 내용을 다 이해할 수 없다는 점을 인정하고 나니, 오히려 제가 집중해야 할 부분이 보이기 시작했습니다. 팀원들이 논쟁하는 지점이 정확히 어디인지, 그것이 지금의 흐름에서 꼭 필요한 일인지 확인하며 전반적인 프로젝트의 플로우를 관리할 수 있었습니다. 그 과정에서 점차 이해하지 못했던 내용들도 자연스럽게 연결되었고, 결과적으로는 숲을 바라보는 시각을 키울 수 있었습니다. 이번 프로젝트는 PM으로서 한 단계 성장하는 소중한 경험이 되었습니다.
향후 유사한 프로젝트를 진행할 학회원들에게 전하고 싶은 조언이 있나요?
  1. 부담 가지지 마시구 공부하면서, 즐기면서 열심히 하시면 뭐든 도움이 됩니다
    처음에는 모든 것을 완벽히 이해하고 최고의 결과물을 내야 한다는 부담 때문에 집중도 떨어지고 효율도 낮았습니다. 그러나 프로젝트 중반부부터는 부담을 내려놓고, 모르는 것을 하나씩 배우며 즐기는 마음으로 임하자 오히려 효율이 크게 개선되었습니다.
    초반에 방향을 잡지 못해 한 달 가까이 시간을 허비한 것처럼 느껴졌지만, 돌이켜보면 그 과정 역시 모두 배움이 되었습니다. 결국 중요한 것은 즐기며 배우고, 최선을 다하는 것이며, 그런 경험들이 언젠가 모두 내공으로 쌓인다는 것을 깨달을 수 있었습니다.