개발 환경은 Windows 7, Anaconda, PyCharm Community Edition, GTX1080ti 입니다.
Anaconda와 Pycharm Community Edittion이 설치돼 있다는 가정하에 작업합니다.
CUDNN 버전 : cudnn-8.0-windows7-x64-v6.0
CUDA 버전 : cuda_8.0.44_windows
CUDA 9 버전은 왠지 오류가 생겨서 CUDA 8 버전으로 작업합니다.
CUDNN 9.0이 속도가 개선됐다던데... 다음에 하죠 뭐.
Anaconda에서 tensorflow 설치하는 것은 다른데서도 많이 보이니까 패스합니다.
다만, 기억을 좀 되살리자면...
conda create -n tensorflow..
activate tensorflow
pip install ... 여기가 잘 기억이 난 나네요. ㅎ
하여튼, wavenet을 다운로드 합니다.
주소는 여기 : https://github.com/ibab/tensorflow-wavenet
파일 다운로드 하면 파일 이름이 : tensorflow-wavenet-master.zip
이걸 풀어서 tensorflow-wavenet-master폴더로 들어갑니다.
그리고, corpus 데이터 다운로드.. 저는 이 파일 다운로드 하는데 하루 걸렸습니다. 사이즈만 14기가.
홈페지지는 여기 : http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html
파일 이름은 : VCTK-Corpus.tar.gz
이것도 받으면 풀어놓습니다.
이제 시작합니다...
1. Anaconda prompt를 실행해서 콘송 창을 엽니다.
2. tensorflow 환경을 시작합니다.
$ activate tensorflow
3. 작업 폴더로 이동합니다.
cd ...\tensorflow-wavenet-master
4. liborsa등등을 설치합니다. 저는 GPU를 사용하니까, 아래 명령 입력. GPU 없으면??
wavenet 돌리는 건 포기하는 게 좋습니다. 한달 이상 돌아갑니다.
만약 윈도 10이면 중간에 지 맘대로 부팅하니까 최악이죠.
$ pip install -r requirements_gpu.txt
5. logdir을 만들어줍니다. 안 만들어주면 오류가 납니다. 그냥 만들어줍니다.
$ mkdir logdir
$ mkdir logdir\train
6. 준비된 폴더의 상태
7. 이제 돌립니다.
(tensorflow) C:\project\tfproj2\tensorflow-wavenet-master>python train.py --sile
nce_threshold 0.01
이렇게 돌리면... 무음 처리를 아예 안 하는거나 마찬가지가 됩니다. 그러니 silence_threshold는 건드리지 말자.
다만, checkpoint는 손 좀 볼 필요가 있습니다. 디폴트가 50번에 한번 저장인데...
이거 저장하는 시간이 꽤 걸립니다. 그래서, 하루 돌리고 세운 후에, 1000번에 한번 저장하게 바꿨습니다. 저는 1000번에 한번 저장하게 하겠습니다.
python train.py --num-steps 1000
이렇게 아니까... 너무 무음이 많다고 해서, 아래와 같이 수정했습니다. 소리가 작은 파일은 무음이라고 하네요.
(tensorflow) C:\project\tfproj2\tensorflow-wavenet-master>python train.py --num_steps 1000 --silence_threshold 0.08 --checkpoint_every 1000
아이구 이렇게 했더니 천번 돌고 끝납니다.
다시!!!
(tensorflow) tensorflow-wavenet-master>python train.py --silence_threshold 0.08 --checkpoint_every 1000
7. 기다립니다. ㅋㅋㅋ
8. 20만번 정도 돌렸는데, loss가 2.0 근처에서 꿈쩍도 안 합니다.
generate.py를 돌려본 결과는 비참하군요. wavenet 실험은 여기서 포기.
DeepVoice 2, 또는 3를 찾으러갑니다.