Deep Voice ํํธ 1 ๋งํฌ ์ด ๊ธ์ ์ ์(Dhruv Parthasarathy)์ ํ๋ฝ์ ๋ฐ์ ๋ฒ์ญํ์ฌ ๊ฒ์ํ๋ ๊ธ์ ๋๋ค. ์๋ฌธ์ https://blog.athelas.com/baidu-deep-voice-explained-part-2-training-810e87d20047์์ ํ์ธํ ์ ์์ต๋๋ค. ์์์๋ฅผ ‘๋‘๋ก ํ๊ธฐํ์์ต๋๋ค, ‘์ต๊ทผ‘์ด๋ผ๋ ๋จ์ด๋ 2017๋ 3๋ ์ ๊ธฐ์ค์ด๋ฏ๋ก ์ง๊ธ(2019๋ )๊ณผ์ ์ฐจ์ด๊ฐ ์์ ์ ์์์ ๋ฏธ๋ฆฌ ๋ฐํ๋๋ค. Arxiv ๋งํฌ: https://arxiv.org/abs/1702.07825 ๊ธฐ๊ด: Baidu Research Baidu์ TTS ์์คํ ์ ๋ฅ๋ฌ๋์ ์ ์ฉ์์ผฐ๋ Deep Voice์ ๋ํ ๋๋ฒ์งธ ํฌ์คํ ์ด๋ค. ์ด ํฌ์คํ ์์ ์ฐ๋ฆฌ๋, ๋ ์ด๋ธ๋งํ ๋ฐ์ดํฐ๋ฅผ Read More
๋ค์ด๊ฐ๋ฉฐ ์ด ๊ธ์ 2017๋ 3์์ ์์ฑ๋ ๋ด์ฉ์ผ๋ก, ๋ฅ๋ฌ๋ ๋ชจ๋ธ, ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ ์๋๋ฅผ ์๊ฐํด๋ณด๋ฉด 2๋ ๊ฐ์ ์ฐจ์ด๋ ์๋นํ ํฌ๋ค๊ณ ๋ณผ ์ ์๋ค. ๊ทธ๋ฌ๋ ๊ฐ์ธ์ ์ผ๋ก ์์ฑ์ ๋ํ ๋ฅ๋ฌ๋ ์ฐ๊ตฌ๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ๋นํด ์ ์๋ฟ์ง ์์, Mask R-CNN์ ๋ฒ์ญ์ฒ๋ผ, ๊ทธ ๊ธฐ์ด๋ฅผ ๋ค์ง๋๋ฐ ๋์์ด ๋์ง ์์๊นํ์ฌ ๋ฒ์ญ์ ์์ํด๋ณธ๋ค. (2019๋ 3์ 24์ผ) ์ด ๊ธ์ ์ ์(Dhruv Parthasarathy)์ ํ๋ฝ์ ๋ฐ์ ๋ฒ์ญํ์ฌ ๊ฒ์ํ๋ ๊ธ์ ๋๋ค. Read More
์์ถ์ฒ : Durrant & Lovrinic (1995) ์ถ์ฒ : ์ธ์ด์์์ ์ํ ์์ฑ๊ณผํ 2ํ, ์๊ทธ๋งํ๋ ์ค ์์๋ ๋ฒจ(dB SPL ๋๋ IL)๊ฐ์ฒญ์ญ์น0์ ์์ ์ธ ํธํก10๋๋ญ์์ด ์์ง์ด๋ ์๋ฆฌ20๋งค์ฐ ์กฐ์ฉํ ์์ญ์30์กฐ์ฉํ ๊ฑฐ์ฃผ์ง์ญ์์์ ๋ํ40๋ฐฑํ์ 50์ผ๋ฐ์ ์ธ ๋ํ60์ด๋ํ๋ ์ฐจ์ ๋ด๋ถ70๋ผ๋์ค์ ์๋๋ฌ์ด ์์ 80๋์์ ๊ตํต90์งํ์ฒ 100ํฐ ์ฒ๋ฅ์๋ฆฌ110ํฐ ์๋ฆฌ์ ๋กํฐ๋กค ๋ฐด๋120๊ทผ๊ฑฐ๋ฆฌ์์์ ๊ธฐ๊ด์ด ๋ฐํฌ130์ด๋ฅํ ๋์ ์ ํธ์์ง140๋ก์ผ ๋ฐ์ฌ180 Read More
์ ๋ฆฌ์ค Read More
๋ค์๊ณผ ๊ฐ์ ํํฐ๋ง ๊ณต์์ ํตํด ์ ์ฃผํ์์ amplitude๋ ์ค์ด๊ณ , ๊ณ ์ฃผํ์๋ ์ฆ๊ฐ์ํค๋ ๋ฐฉ์์ ์ด์ฉํ๋ค. Applied Speech and Audio Processingย ์ฑ ์ 102p์ ๋ค์๊ณผ ๊ฐ์ด ๋์์๋ค.(๋ฒ์ญ์ ๋ด๋ง๋๋ก) LPC ๋ถ์์ high frequency๋ poorํ ๋ฐ๋ฉด์, lower frequencys๋ฅผ ๋ ์ ํํ ๋ง์ถ๋(?;satify) ๊ฒฝํฅ์ด ์๋ค. ใ ๊ทธ๋์ LPC ๋ถ์ ์ ์ pre-emphasis๋ฅผ ์ํค๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค. ์์ฑ์ด ์ ์ ํตํด ๋ฐํ๋ ๋, ๋์ ์๋ ฅ์์ ๋๊ธฐ๋ผ๋ ๋ฎ์ ์๋ ฅ์ผ๋ก ๋์ค๋ฉด์, Read More
์ฑ : ์์ฑ ์ํฅ ๋ถ์๋ก , ์ 2ํ, ๋ฐํ์ฌ [1] ๋ถ์ ๋ชฉ์ ์ผ๋ก ์ด์ฉ๋๋ ์ต์ ์๊ฐ ๋ถํด๋๋ ์ฝ 10ms, ์์์ ๊ฐ๋ฐฉ(release)์ ๊ด๋ จ๋ ์๊ฐ์ ํ์ด(transient burst)์ ๊ฐ์ ์ค์ํ ์์ฑ๊ฒฐ๊ณผ์ ๋ํ ๊ฐ์ฅ ์งง์ ๊ตฌ๊ฐ์ด๋ค.(pat, cat, tat ๋ฑ์ ์ฒซ ์๋ค) ์์ฑ ์ ํธ์ ๋๋ถ๋ถ์ 10kHz์ ๋ฒ์ฃผ์ ๋ถํฌํ๋ฉฐ 60dB ์ ๋์ dynamic range, 10ms๋ ํน์ ๊ทธ ์ดํ์ ์ค์ํ ๋ณํ๋ฅผ ๋ด๊ณ ์๋ค.(16p) [2] ๋น์์ ๋ชจ์์ฒ๋ผ ์ ํ์ ์ผ๋ก Read More
[1] ํฐ ๋ชฉ์๋ฆฌ – ํ๋์ด ๋๋ค. – ์งํญ์ด ํฌ๋ค. ์์ ๋ชฉ์๋ฆฌ – ํ๋์ด ๋ฎ๋ค. – ์งํญ์ด ์๋ค. ๋์ ๋ชฉ์๋ฆฌ – ํ๋์ ํญ์ด ์ข๋ค – ์ง๋์(์ฃผํ์;Hz)๊ฐ ๋๋ค – ์งง์ ์ฃผ๊ธฐ(T) ๋ฎ์ ๋ชฉ์๋ฆฌ – ํ๋์ ํญ์ด ๋๋ค – ์ง๋์(์ฃผํ์)๊ฐ ๋ฎ๋ค – ๊ธด ์ฃผ๊ธฐ [2] ์ฌ๋์ ๋ฃ๋ ์ฃผํ์ 20Hz~20000Hz ์ ๋๊น์ง ๋ค๋ฆฐ๋ค? (50p) [3] ๊ธฐ๋ณธ์ฃผํ์ – ๊ฐ๊ฐ์ ์ง๋์๋ฅผ ๊ฐ๋ Read More
์ฐธ๊ณ ์์ : ๋งํ๋ก ํจ๊ป ๋ฐฐ์ฐ๋ ํธ๋ฆฌ์ ํด์, ์ฑ์ธ๋น <๊ธฐ์ด์ง์ 1> ์ง๋์ ์์ผ๋ก ํํํ๋ฉด, ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค. ์์ , ๋ฅผ ๋ฐ๋ก ๋ํ๋ด๋ณด๋ฉด ์ ์ ๊ด๊ณ๋ ์์ ๊ทธ๋ฆผ์ฒ๋ผ ๋ํ๋ผ ์ ์๊ณ , ์ ์ ๊ด๊ณ๋ ์๋์ ๊ฐ๋ค. <๊ธฐ์ด์ง์ 2> ์ผ๊ฐํจ์์ ๋ฏธ๋ถ์ ๋ฅผ ๊ณผ์ฅํ์ฌ ํ๋ํ์๋ ๊ทธ๋ ค์ง๋ ์ผ๊ฐํ์ ์ด์ฉํด์ ๊ตฌํ๋ฉด ๋๋ค. ๋ฐ์ง๋ฆ 1์ ์์ ๊ธฐ์ค์ผ๋ก Read More
์๋๋ก์ด๋์์ MediaRecorder๋ฅผ ์ด์ฉํด ๋ น์ํ๋ ๊ฒ์ ์ฝ์ง๋ง, ์กฐ๊ธ ๋ ์ฌ๋์๋(?) ๋ น์์ ์ํด์๋ AudioRecorder ํด๋์ค๋ฅผ ์ด์ฉํด์ผํ๋ค. AudioRecorder๋ก MP3๋ฅผ ๋ น์ํ๋ ๋ฐฉ๋ฒ์ WAV๋ฅผ ๋ น์ํ๋ ๋ฐฉ๋ฒ๊ณผ ํฌ๊ฒ ๋ค๋ฅด์ง ์๋ค. – ๊ธฐํ๊ฐ ๋๋ฉด WAV๋ ํฌ์คํ ํ๊ธฐ๋ก ํ๊ณ . ์ผ๋จ MP3๋ น์์ ์ํด ์ธ๋ถ library๋ฅผ importํ๋ค. ์ผ๋ณธ์ธ์ด ๋ง๋ ๋ฏํ SimpleLameLibForAndroid๋ผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ์ฐ์ด๋ ๋ฏ ํ๋ฉฐ ๊ตฌ๊ธ์ ๋ง์ ์์ ๊ฐ ์์ผ๋ ๋ญ๊ฐ ๋ณต์กํ ๋ฏ. ์ด๋ฅผ Read More
์ต๊ทผ์ ์์ ์ค์ธ Project๋ ์ด 2๊ฐ, ์ฝ๊ฐ ํ๋ฅํ๊ณ ์๋ Project 2๊ฐ. (1) VoiceLab (by MATLAB): ๊ทธ ๋์์ ์ฝ์ง์ด ์ฌ์ฌ ๊ฒฐ์ค์ ๋ณด๊ณ ์๋ค. formant, pitch(F0), LPC ๋ฑ๋ฑ์ ๋ํ ์ด๋ก ๋ค๋ ๋ง์ด ์ต๋ํ๊ณ , ์กฐ๋ง๊ฐ ์ด์ชฝ์ ๋ํ ํฌ์คํ ์ ์งํํด๋ณด๋ ค๊ณ ๊ณํ ์ค (2) ???? (by Android): ์น์ฐ์ ๋์์ผ๋ก ์งํ์ ๊ฐ์๋๋ฅผ ๋ถ์ด๋ ์ค. ๊ฑฐ์ ๋ฐ๋ชจ ๊ฐ๋ฐ์ ์๋ฃํ๊ณ , ์กฐ๋ง๊ฐ ์์์ ์ ์ฉํด์ validation Read More
2007๋ 5์ ๋ถํฐ ์ด์์ค์ธ ๊ฐ์ธ ๋ธ๋ก๊ทธ์ ๋๋ค.
์์ , ๋ฏธ์ , ์ปดํจํฐ๋ฅผ ์ข์ํ๋ ์ด๋น์ธํ๊ณผ ์์ฌ์ ๋๋ค.