繪圖:央美互動
劉紅平 科技日報記者 吳長鋒
人們在交流時,會借助手勢傳達一些信息。而對于聽力障礙者來說,手勢不是輔助交流手段,而幾乎是他們最主要的溝通方式。
合肥工業(yè)大學計算機與信息學院教授汪萌在多媒體智能領域所取得的科研成果,可以讓計算機精確理解手語視覺意圖,并能夠自動生成多語種語言。他的這些成果,為聽障人士運用現(xiàn)代信息化手段與外界互動交流,開辟了一個新通道。
“我們的目標,就是讓計算機對多媒體信息的理解日益接近人類水平?!蓖裘葘萍既請笥浾哒f。
從最簡單的圖片內(nèi)容識別起步
早在讀研期間,汪萌就將多媒體智能中的多媒體內(nèi)容分析與理解作為自己的研究領域和主攻方向。后來,汪萌24歲獲得博士學位、27歲受聘為特聘教授、33歲獲得國家自然科學基金杰出青年基金資助……外人看來順風順水的科研道路,他卻覺得自己走得異常艱辛。
“最初,我們從最簡單的圖片內(nèi)容識別入手,給計算機1000張照片,讓計算機識別出哪些照片是在室內(nèi)拍攝的、哪些又是在室外拍攝的。隨后,再嘗試識別哪些照片是在城市拍攝的、哪些是在鄉(xiāng)村拍攝的。再后來,才能讓計算機識別照片中的具體內(nèi)容,比如是人還是動物、是車還是船等。”汪萌回憶道。
在多媒體智能起步階段,這些簡單的識別內(nèi)容,一度難倒了以處理數(shù)據(jù)見長的計算機。帶著這些問題,汪萌開展了一系列研究,終于將初階的計算機識別難題給攻克了,但完成這些才只是開始。
在此基礎上,汪萌開始研究描述生成,即給計算機一張圖片,讓計算機用一句話描述其中包含的信息,這被汪萌形象地稱為“教計算機看圖說話”。
經(jīng)過2年的集中攻關,汪萌終于“教”會計算機用自主生成的、具有主謂賓結構的語句對圖片進行描述,但是這種描述能力也只是勉強達到5歲孩子的語言表達水平,遠未達到可以被大規(guī)模推廣應用的程度,需要攻克的問題還有很多。
將研發(fā)技術在多領域進行應用并取得成果
“研究中的每一個進步,都來之不易。想要在高水平的智能化道路上走得更遠,我和團隊成員只能腳踏實地、逐個攻克難題。”汪萌告訴記者,隨著研究的深入,計算機內(nèi)容分析的智能化水平在不斷提升,它的理解能力也越來越強,描述的語言更加豐富、生動。
“我們逐步實現(xiàn)了人機問答和對話,讓計算機在‘看’完一部電影后,向我們描述其中一段情節(jié),進而讓計算機針對某個問題或一系列關聯(lián)性問題做出準確的回答?!蓖裘然貞浀?。
十余年的持續(xù)攻關,汪萌帶領團隊成員圍繞可解釋的多媒體智能技術在視覺內(nèi)容情感分析、視覺非接觸式生理信號檢測、多模態(tài)抑郁癥診斷、情緒相關微動作檢測與識別等領域的應用進行了先期探索,并取得的一系列突破性的成果。
“在這一系列成果的支撐下,如今架起一個廣角鏡頭,計算機通過鏡頭‘看到’自動監(jiān)控畫面中的人與物,就能分析、推理其中相關物品、人物的關系,判斷其是否存在安全隱患,從而實現(xiàn)對某些特定場所的安全感知、預警和管控?!蓖裘日f。
填補電力施工現(xiàn)場安全管控系統(tǒng)領域的技術空白
汪萌告訴記者,他和團隊成員取得的原創(chuàng)性成果已經(jīng)“走”出了實驗室,為國家建設和社會發(fā)展貢獻力量。
“我和團隊成員為電力施工現(xiàn)場設計出了一整套智能感知、云邊協(xié)同、全過程可視化的電力工程現(xiàn)場安全解決方案和軟硬件系統(tǒng),有效地提升了電力施工現(xiàn)場的安全水平?!蓖裘缺硎?,他們的成果應用在全國超過120個地市的工程現(xiàn)場,實現(xiàn)了對電力工程現(xiàn)場的遠程實時監(jiān)控和智能識別分析,還可以對其進行綜合風險預判,進而降低了電力施工現(xiàn)場的安全風險。
汪萌及其團隊的這一研究成果,填補了我國電力施工現(xiàn)場安全管控系統(tǒng)領域的技術空白,建立了擁有自主知識產(chǎn)權的技術體系,為電力工程大規(guī)模建設提供了技術保障。
如今,汪萌和他的團隊成員正在探索將研究成果應用在無障礙引導、輔助教學、智能聊天機器人和無人駕駛等更多場景中,改善殘障人士的生活并推動新興產(chǎn)業(yè)的發(fā)展。