人滿意。為了解決這一問題,我們提出了基於詞格的音訊檢索方法,簡單的說,就是除了在語音識別的首選結果上搜尋外,加入多候選識別結果的資訊。比如,語音識別的第一候選是“研究院”,但同時給出許多次優候選,如“研究員”。透過索引這些多候選結果,搜尋的準確性有了大幅度的提高。
但我們很快發現了另一個問題,常用的語音識別系統依賴於一個事先選取的詞典,而不在詞表中的詞是不可能被識別出來的,這在語音識別中稱之為“集外詞”問題。對於音訊檢索,這個問題變得尤為嚴重,因為很多集外詞都是可能被搜尋到的關鍵詞。針對這一問題,我們採用了基於音素的語音識別系統,將音訊內容和使用者關鍵詞都分拆成音素來匹配,取得了很好的效果。
在那一年的Director Review和第二年的TechFest,我們演示了這一技術,得到了廣泛的好評。
跨越“100小時”這座大山
在我們演示了基於音素的音訊檢索技術之後,得到最重要的一條反饋是,這一技術要做到實用,必須解決資料集的尺度問題。在我們的解決方案中,搜尋時間和資料集尺度是成正比的,這稱之為“線型搜尋”。在資料集小於10小時的情況下,搜尋的時間在2秒以內。但當資料集到了100小時的時候,搜尋時間就不可接受了。而100小時,是一個實際應用的基本要求。
其實在文字搜尋領域,透過基於詞的倒排索引,海量資料集的搜尋早就不成為難題。但在我們的系統中,因為採用音素為基本單元,使得簡單的倒排毫無用�