개요

Using Deep Learning to Annotate Karaoke Songs를 읽고 내용을 정리해둔다.

Abstract

노래방 가사 sync를 UltraStar(가사 타이밍을 맞추는 게임) 데이터셋을 통해 딥러닝으로 학습시켜 가사 타이밍을 예측하는 실험을 한 논문이다.

방법론

Voice Speration이 아닌 Voice Detection을 예측하는 문제로 정의

방법

  • 입력값 : Spectogram 이미지
  • 정답지 : 가사 데이터에 의해 1초단위별로 Voice가 있었는지 유뮤(0/1)
  • 알고리즘 : CNN + FC
  • Output : 1초별로 Voice 유뮤를 표시한 Binary Array
  • Loss : Cross Entropy

성능

F1 Score기준으로 생각보다 Accuracy가 잘 나오지는 않음

앞으로 시도해볼만한 것

  • CNN대신에 LSTM을 도입
  • pre-processing시 STFT 대신 Constant-Q 사용해보면 어떨까
  • 스펙트로그램 대신 MFCC를 쓰면 어떨까