개요
Using Deep Learning to Annotate Karaoke Songs를 읽고 내용을 정리해둔다.
Abstract
노래방 가사 sync를 UltraStar(가사 타이밍을 맞추는 게임) 데이터셋을 통해 딥러닝으로 학습시켜 가사 타이밍을 예측하는 실험을 한 논문이다.
방법론
Voice Speration이 아닌 Voice Detection을 예측하는 문제로 정의
방법
- 입력값 : Spectogram 이미지
- 정답지 : 가사 데이터에 의해 1초단위별로 Voice가 있었는지 유뮤(0/1)
- 알고리즘 : CNN + FC
- Output : 1초별로 Voice 유뮤를 표시한 Binary Array
- Loss : Cross Entropy
성능
F1 Score기준으로 생각보다 Accuracy가 잘 나오지는 않음
앞으로 시도해볼만한 것
- CNN대신에 LSTM을 도입
- pre-processing시 STFT 대신 Constant-Q 사용해보면 어떨까
- 스펙트로그램 대신 MFCC를 쓰면 어떨까