關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第26部分

點周圍畫素的情況來確定。簡單地講,比如前一幀該點位置是黑的,這一幀該點位置也就是黑的。這樣兩幀播放起來就連貫了。根據這個原理當時,還是實習生,現在已經是副研究員的許繼徵給出了相應的算術編碼解法。

填補學術界空白

總的來說,我們組投入了較大的精力於“二值影片”技術的摸索和創新,也透過一系列的開創性研究填補了學術界的空白,而且始終居於世界領先地位。同時,我們還創立了一種新型的影片形態——“二值影片”。

大家知道,國際上靜態的彩色影象有JPEG影象,動態的彩色影片有MPEG影片,靜態的黑白二值影象有JBIG影象,而我們創立的可稱為動態的黑白“二值影片”。後來,在“二值影片”的基礎上,我們又進一步推出了“四值影片”與此同時,隨著頻寬條件的不斷改善,我們也試著用“第二條腿”走路——在確定了黑白版的微軟肖像影片的基礎上,我們組又開始向“彩色版”挺進。

從黑白版的“二值影片”到“四值影片”,再到彩色影片,隨著對傳輸速度和頻寬要求的遞增,“微軟肖像”為使用者提供了可以滿足不同網路條件而可供選擇的軟體型別。這三種技術從影片的效果來看,應該說已經包含了所有的功能。近一兩年中,我們所做的工作主要是為增強這個可視通訊軟體的一些其他輔助功能,比如能夠更多地支援不同型別的攝像頭,能夠增強連線性,或者拍張照片,可以傳送檔案等。

“微軟肖像”軟體是很多人團結協作的成果。當時是軟體工程師,現在是開發主管的陳剛,編譯出了第一個可執行的軟體版本。其後又有餘可曼、唐健、和林慶維接手這個軟體的製作。很多訪問學生如周涵寧、王勇、王凱波、王利傑、賀鐵林、林雲峰、呂江波等都對演算法等各方面的研究做出了貢獻。當時的研究主管沈向洋博士、李世鵬博士、張亞勤博士等對這個專案給予了大力支援。

雖然目前“微軟肖像”還沒有被正式運用到微軟的產品中,但是這項技術卻透過各種各樣討論掌上電腦和手機的社群網站不斷被世人認識,並透過資源共享真正讓使用者體驗到其中的互動樂趣。2001年,“微軟肖像”技術在國際多媒體大會上向國際學術界宣佈它的誕生。同年8月8日,當USA Today(《今日美國》)的記者第一次透過媒體的聲音公開向全世界讀者介紹“微軟肖像”的時候,我們從來沒有想象過這項技術會受到如此的青睞和好評。後來隨著包括《麻省理工學院技術評論》等重量級媒體對這項技術的報道和千千萬萬熱心使用者對我們軟體的反饋之後,我們堅信了”做真正滿足使用者需要的產品才是創新研究的根本”這一信條。我想這也是我們從事計算機基礎的研究工作者應該謹記的信條。

作者介紹:

李江,1999年1月加入微軟亞洲研究院任研究員,2004年任多媒體通訊組主任研究員。之前他曾任浙江大學物理系副教授。他於1989年獲清華大學物理系學士學位,1992年獲浙江大學物理系光學碩士學位,1988年獲浙江大學數學系應用數學博士學位。他做研究專案看重對人的意義和潛在的商業模式,做事講究簡單有條理,平時愛看書、看電影及外出旅遊。

讓語音技術改變人們的生活 餘鵬

在MSRA的辦公區牆上,貼著比爾·蓋茨曾經說過的一段話:“每天清晨當你醒來的時候,都會為技術進步給人類生活帶來的發展和改進而激動不已。”這句話也詮釋了MSRA這10年來成就的動力源泉――用技術改變人們的生活。

我在清華大學的博士課題是語音識別,畢業後進入MSRA的語音組。語音技術經過多年的發展取得了長足的進步,但是在應用領域,卻面臨著一個尷尬的局面:一些在實驗室的理想環境下表現完美的技術,很難找到現實的應用;而在現實生活中,目前語音技術的穩健性和適應性卻又達不到應用場景的需求標準。

如何找到連線技術和應用的橋樑,是我們語音組的研究員考慮最多的問題。

此路不通?換條道!

2003年春天,正是北京SARS肆虐的日子。也就是在那時候,我們開始了語音識別用於音訊檢索的研究。我們選取的第一個應用是搜尋個人的語音郵件,針對的場景是10小時以內的語音資料。

最開始,我們直接用語音識別系統將語音郵件轉換成文字來搜尋。但很快發現即使最好的語音識別系統,針對語音郵件的準確性也僅僅只有70%左右,而這種情況下,搜尋的準確性無法令