沒有人可以說同一段話兩次,雖然你可以說你好你好,但這兩個你好的聲音訊號都不會一模一樣。NO MAN EVER STEPS IN THE SAME RIVER TWICE FOR IT'S NOT THE SAME RIVER AND HE'S NOT THE SAME MAN ~ 古希臘哲學家赫拉克利特 (因為踩第二次的時候,河流已經改變,人也已經改變。 ref : https://tripnotice.com/blog/2016/11/16/quote_same_river_twice)
語音是用多少 K 赫茲 sample points 來調適你的語音,如一秒鐘有 16K 的 sample points。文字也很複雜 (from The Language Instinct: How the Mind Creates Language (Steven Arthur Pinker),有一本小說句子高達 13955 個字,探討最長的句子沒有義意,因為只要再最長的句子前加上該句話作者所寫,就比最長句子更長,重點在於由此可知人類的語言可以有多複雜,因句子可以擁有無窮無盡的長度。
Google 小姐曾經發生破音 (目前 google 小姐的問題已修正,要看教授 youtube 連結),發現單一個字會破音,但如果破音的單字連在一起發音就正常,但因為是 NN 自己 Training 出來的,尚待剋服
在來是輸入一段聲音訊號,輸出一段聲音訊號,如兩個人對話透過 NN model 把兩人的語音拆開來 (Speech Separation, 雞尾酒會效應,人類有能力可以專心在你想要聽的內容 or 某個人身上),機器用了 Deep Learning 也有一定的進展 (DEMO),可用機器分離兩個人的對話,不需要訊號處理的技術,就是硬 Train 一發連 Fourier Transform (快速傅立葉變換) 都沒有用到。
也可以應用 Voice Conversion,像是柯南講話後改變成其他人的聲音
最簡單方法是把 A 和 B 找來,兩個一起說相同的句子,然後進行訓練讓機找到 A transfer to B 的函式自動學會 A 轉成 B,但此法不切實際,如要某位明星的聲音,你不可能真的能找得來那位明星,所以還要看是否能即使不同句子,只要有聲音即可訓練出來? (One-shot learning 教授說「是否要來念博班」,透過新桓結衣的聲音講出「是否要來念博班」)
Speaker Recongnition : 輸入一段聲音,判斷聲音是哪個類別,輸入一段聲音判斷出是誰講的,或是 Keyword Spotting : 檢測出句子中是否有某個關鍵字技術,如像語音助理會認 Hi Siri,表示你叫他,他要能偵測的出語音中有這個關鍵字,需要喚醒辭的技術則要不斷聽到你的聲音,但如果要機器持序的聽環境音是否有喚醒辭則要花費大量的資源,除了準確外還要注意省電。
漢堡王想了一個廣告 (DEMO),漢堡王想要廣告華堡,詢問 google 華堡裡有什麼東西,而 Google 去看 wikipedia 的內容,且漢堡王已經在 wikipedia 輸入了華堡的內容, 但廣告上架前被改變內容由帳號 Fermachado123 (剛好 Burger King IG 帳號也是這個),所以大家都知道 Google 是內 wikipedia 的內容,於是開始大量亂改 wikipedia,後來 google 修正,當廣告播出時會有大量的人湧入查詢華堡是什麼,就把大量相同 Request 關掉讓此廣告失效。
Meta Learning 學習如何學習 (learning to learning),演算法是人設計的,人的智慧有限演算法的能力也有限,有沒有可能讓機器自己設計出學習演算法解更複雜問題,讓機器想出更好的演算法,在人類處理語言上處理的更好,Meta Learning 讓機器在很多任務上進行學習,規納出更好的學習方法,變成更利害的學習者,可用更少資料和時間學會。如在 Bengali, Taralog, Zulu 這些語言的找出學習語音辨識演算法,在學新語言可以學的更快更好。
Learning from unpaired Data : 如同影像上可用 Image Style Transfer 將兩種圖像的風格進行轉換,這個技術是否能應用於 Voice Conversion 可把兩人不同語音當成兩種風格在語音間換轉,長文和摘要視為不同風格間互轉,英文和中文視為不同風格間互轉,語音和文字視為不同風格間互轉。
能不能讓機器閱讀了某些文章後,把學到的知識放到模型。
Adversarial Attack : 給圖片加一些人看不出來的擾動,卻讓影像辨識系統崩壞,影像可被攻擊,語音也相同可以被攻擊,Anti-spoofing 可判斷聲音訊號是否錄音 or 語音合成的聲音,但如果加入一些人聽不出來的雜訊突破 Anti-spoofing 的防守。NLP 文字也有問題,如機器讀了文件後你問他問題機器可以幫你找出答案 (為何人要走路,機器會要運動),但如果文張都加入 why how because to kill xxx people,所有的答案都會變 to kill xxx people。
沒有留言:
張貼留言