논문분석

[논문분석] Using Deep Learning to Annotate Karaoke Songs

2018년 8월 27일 MachineLearning 426 comments deep learning, machine learning, paper, 기계학습, 논문분석, 딥러닝, 머신러닝

개요

Using Deep Learning to Annotate Karaoke Songs를 읽고 내용을 정리해둔다.

Abstract

노래방 가사 sync를 UltraStar(가사 타이밍을 맞추는 게임) 데이터셋을 통해 딥러닝으로 학습시켜 가사 타이밍을 예측하는 실험을 한 논문이다.

방법론

Voice Speration이 아닌 Voice Detection을 예측하는 문제로 정의

방법

입력값 : Spectogram 이미지
정답지 : 가사 데이터에 의해 1초단위별로 Voice가 있었는지 유뮤(0/1)
알고리즘 : CNN + FC
Output : 1초별로 Voice 유뮤를 표시한 Binary Array
Loss : Cross Entropy

성능

F1 Score기준으로 생각보다 Accuracy가 잘 나오지는 않음

앞으로 시도해볼만한 것

CNN대신에 LSTM을 도입
pre-processing시 STFT 대신 Constant-Q 사용해보면 어떨까
스펙트로그램 대신 MFCC를 쓰면 어떨까