金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一個女孩登上了央視《對話》欄目,僅是淺唱了一首歌,便讓全場驚嘆連連。
講真,這種reaction還真沒有一點夸張。
話不多說,先來感受下這個feel:
或許你會問了,人美歌甜是沒錯,但也不至于到震驚的程度吧?
但如果說,視頻里的這個女孩,她并不是人呢?
沒錯,她便是央美研究生畢業(yè)、畫作還參加了迪拜世博會的小冰框架虛擬人類——夏語冰。
而用小冰公司首席運營官李笛的話來說:
這是全球范圍內(nèi)最高技術(shù)的人工智能歌聲合成。
△小冰CEO,李笛
于是,這樣一段視頻在網(wǎng)絡(luò)上發(fā)布之后,便迅速引發(fā)了網(wǎng)友們的熱議。
人類?虛擬人?傻傻分不清:
甚至媒體競相為這段視頻貼上了這樣的標簽——這就是虛擬人天花板、虛擬人夏語冰的才藝有多絕。
話題同樣引起網(wǎng)友的熱議,迅速占據(jù)各大社交平臺的熱榜,霸榜近24小時:
而說到天花板,就在剛剛,小冰的另一位虛擬人,又搞了個大新聞。
她叫陳水若,也是誕生于小冰框架的一位虛擬人歌手。
雖說都是唱歌,陳水若和夏語冰還有所不同,她主打的是民族唱法。
這不,在除夕之際,陳水若便奉上了一首《華夏》,而且還是和李玉剛合作夢幻聯(lián)動的那種!
而最近小冰虛擬人如此頻繁地亮相、表演,也在透露著一種虛擬人發(fā)展的新趨勢——
朝著三次元邁進,還得是顏值和才華兩手抓!
如此逼真,小冰是怎么做到的?
其實,早在2017年,小冰團隊就提交了專利《Creating a Conversational Chatbot of a Specific Person》,引起了學界、媒體廣泛關(guān)注。
而直到2021年12月,《Nature》刊登了來自MIT 研究團隊的論文——機器學習的技術(shù)進展,讓文本、圖像、音頻和視頻數(shù)據(jù)的超現(xiàn)實合成成為可能。
而在這條道路上,小冰團隊已然走了四年之久,可以說是在AI創(chuàng)新上做到了領(lǐng)先。
我們還是以夏語冰和陳水若驚艷大眾的視頻來說,它的誕生主要可以分成以下幾個流程。
首先利用小冰神經(jīng)網(wǎng)絡(luò)渲染技術(shù)(XNR),XNR能夠做到生成一張此前完全不存在的臉,也就是AI創(chuàng)造面容。
接著,還是通過神經(jīng)網(wǎng)絡(luò)渲染技術(shù),將虛擬人面部特征置換到視頻模板中,并進行表情控制等一系列控制行為。這比我們過去看到的 AI 換臉更復(fù)雜也更難,畢竟 AI 換臉無法更換虛擬出來的人臉,且自然度也不會像這么高。
然后,小冰會通過數(shù)字孿生技術(shù),根據(jù)實際視頻內(nèi)容,調(diào)整視頻模板,例如動作的變化、表情和表達內(nèi)容的變化等。
然后就是夏語冰和陳水若的歌聲。
這里用到的是小冰超級自然語音技術(shù),借助這個技術(shù)生成虛擬人的高質(zhì)量演唱聲線(AI 創(chuàng)造聲音),并根據(jù)需要生成對應(yīng)的歌聲,不需要任何配音演員。
在上面這些技術(shù)的加持下,夏語冰的面容、表情、聲音就能全部統(tǒng)一在一起,形成無法與真人區(qū)分的內(nèi)容。
夏語冰和陳水若背后的這套技術(shù),與其他很多虛擬人視頻采用的 3D 建模,然后用真人或換頭,或動捕、或用動作庫匹配等技術(shù)方案相比,最大的優(yōu)勢在于既能控制成本,同時虛擬人的自然度又極高。
而其他的技術(shù)要么成本昂貴,要么很不自然,難以兼顧。
無論從成本還是效果看,夏語冰、陳水若背后小冰框架下的虛擬人技術(shù)都可以說是未來趨勢,而小冰走在了前面。
更重要的是,這種技術(shù)主導(dǎo)下的小冰框架虛擬人類,擁有無可比擬的多樣性 —— 就像人的多樣性一樣,容貌多樣,內(nèi)在靈魂多樣,容貌與內(nèi)在相互統(tǒng)一。
這其中,內(nèi)在靈魂的多樣性,技術(shù)更難,也更重要。正如那句網(wǎng)絡(luò)用語所說:
好看的皮囊千篇一律,有趣的靈魂萬里挑一。
事實上,小冰最開始思考到虛擬人類 AI being 時,就認識到了”靈魂“的重要性,并且也是從”靈魂“開始做的。
他們在這方面的基礎(chǔ)研究積累了八年,加上微軟在AI這個方向上30年的投入,形成了獨特的先發(fā)優(yōu)勢。
比如夏語冰,她的確有一張顏值很高的臉。但她之所以能被選入迪拜世博會,代表中國館的作品向全世界展出,也不是靠她的漂亮,而是靠她的人工智能繪畫模型,在成千上萬次創(chuàng)作中,能夠保持一個藝術(shù)家一貫的創(chuàng)作水準。
這是她真正的實力,而不是外貌。
所以,多樣性,尤其是內(nèi)在靈魂的多樣性,是虛擬人發(fā)展的必然趨勢。
當然,小冰團隊對具體的技術(shù)路徑的遠景布局也很重要。
比如用神經(jīng)網(wǎng)絡(luò)渲染技術(shù)生成虛擬人豐富多樣的容貌和真實的表情動作語言,要是用傳統(tǒng) CG 技術(shù),幾乎不可能滿足頻繁的交互需求。
還有開放域自然語言處理,超級自然語音,全雙工語音等技術(shù),小冰也是從很早就開始了布局。如今這些技術(shù)被普遍關(guān)注,恰恰證明了他們預(yù)判的準確性。
當然,這背后也是虛擬人多樣性趨勢發(fā)展的必然結(jié)果。
就像人類世界的生活之所以精彩,更重要的是因為每個人的性格、內(nèi)在是不同的,外貌的不同只是其次。
也幸而小冰在這方面擁有足夠的先發(fā)優(yōu)勢,能夠以可控的成本,孵化出海量個性迥異,同時又非常鮮活的虛擬人。
而這,也是虛擬人真正能夠為我們生活帶來更多創(chuàng)造力的關(guān)鍵。
但除了效果上的逼真,其實小冰對于虛擬人的發(fā)展,發(fā)出了一種新信號:
虛擬人,已經(jīng)步入三次元時代
現(xiàn)在的虛擬人,若是不說明情況,其逼真程度真的能夠達到“瞞天過海”的效果。
很多人會將這種與人類極其相近的效果,稱之為“打破次元壁”。
但講真,視覺、聽覺效果上的逼真,僅僅是虛擬人步入三次元時代的表象。
其背后更大的意義,應(yīng)當是像人一樣的,在三次元世界里創(chuàng)造價值。
例如此前便有虛擬主播N小黑、N小白,在人們毫無察覺的情況之下,連續(xù)70天播報新聞,還是24小時連軸轉(zhuǎn)的那種。
這便在很大程度上做到了釋放人力、物力的同時,大幅提高了生產(chǎn)效率。
而不僅僅是新聞主播這一件事,若是上升到更高的角度來觀察,我們也不難發(fā)現(xiàn)AI虛擬人“三次元化”,已然成為一種大趨勢。
例如前一陣子在短視頻平臺一夜爆火的虛擬人柳夜熙,僅發(fā)布一條視頻便受到了全民圍觀。
△圖源:柳夜熙官方短視頻號
再如虛擬人AYAYI,僅憑一張“證件照”,在網(wǎng)絡(luò)上瞬間爆紅(當天便有224萬瀏覽量)。
△圖源:圖源:AYAYI官方平臺
這是AI虛擬人,正在逐步迎合大眾審美、口味的一種印證。
再從商業(yè)層面上來看,僅是2021年,虛擬人賽道上便有超過10筆的融資,嗅覺敏銳的VC們可謂是紛紛拋出了橄欖枝,著手布局。
更有行業(yè)預(yù)測顯示,到2030年,我國虛擬人整體市場規(guī)模還將達到2700億元。
而之所以能夠達到如此規(guī)模,除了上述提及的幾點之外,若是再深挖一層,那便是可能超越人類的創(chuàng)造力和多樣性。
例如像夏語冰所具備的繪畫、創(chuàng)作能力,便是能夠打破人類創(chuàng)造力的上限。
……
那么最后一個問題便是——在“虛擬人步入三次元時代”的當下,我們又該和他們?nèi)绾喂采?/p>
對此,小冰CEO李笛認為:
人工智能會成為一些新的節(jié)點,這些節(jié)點有的是創(chuàng)造者,有的是伴侶,有的甚至可能是我們每個人的替身。
他們能夠替代我們,使我們每個人能夠更好地去優(yōu)化所在的社交網(wǎng)絡(luò)和工作網(wǎng)絡(luò)、生活網(wǎng)絡(luò)。
最后的最后,你是否也想與三次元虛擬人互動,讓她給你創(chuàng)作獨一無二的作品呢?
這個可以有!
而且還是世博會級別的水墨山水畫。
在今晚(除夕)24:00點之前,只要在微博和抖音搜索小程序“AI畫家夏語冰”,就可以體驗了!
快去試試吧~
本文首發(fā)于微信公眾號:量子位。文章內(nèi)容屬作者個人觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風險請自擔。