多模態(tài)AI重新定義人機(jī)交互方式

2024-10-23 01:35:00 來源: 科技日報點擊數(shù)：

科技日報記者劉霞

未來的人工智能（AI）什么樣？想象一下，只需簡單一個指令，它們便能領(lǐng)悟并執(zhí)行復(fù)雜的任務(wù)；它們還能通過視覺捕捉用戶的表情和動作，判斷其情緒狀態(tài)。這不再是好萊塢科幻電影中的場景，而是正逐步走進(jìn)現(xiàn)實的“多模態(tài)AI”。

據(jù)美國《福布斯》網(wǎng)站近日報道，元宇宙平臺公司、OpenAI以及谷歌公司等巨頭，都推出了各自的多模態(tài)AI系統(tǒng)，正不遺余力地加大對此類系統(tǒng)的研發(fā)投資，力求提高各種模態(tài)內(nèi)容輸出的精確度，從而改善AI與用戶的交互體驗。

多模態(tài)AI標(biāo)志著一種范式變革。它將深刻改變很多行業(yè)的面貌，并重塑數(shù)字世界的格局。

賦予AI“多重感官”功能

人類是如何了解世界的？我們依賴視覺、聽覺和觸覺等多種感官，從無數(shù)來源接收信息。人腦將這些紛繁復(fù)雜的數(shù)據(jù)模式融合，繪制出一幅生動的現(xiàn)實“畫卷”。

IBM公司官網(wǎng)這樣定義多模態(tài)AI：能集成和處理來自多種模態(tài)（數(shù)據(jù)類型）的機(jī)器學(xué)習(xí)模型，這些模態(tài)包括文本、圖像、音頻、視頻等形式的輸入。就像賦予AI一整套感官，使它能從多個角度感知并理解輸入的信息。

這種跨越不同模態(tài)理解和創(chuàng)建信息的能力，超越此前側(cè)重于集成和處理特定數(shù)據(jù)源的單模態(tài)AI，贏得了各大科技巨頭的青睞。

在今年的移動通信大會上，高通公司將其開發(fā)的多模態(tài)大模型首次部署在安卓手機(jī)上。用戶無論是輸入照片，還是語音等信息，都能與AI助手順暢交流。例如，用戶可以拍一張美食照片向AI助手提問：這些食材都是什么？能做出什么菜？每道菜的熱量是多少？AI助手能基于照片信息，給出詳細(xì)的答案。

今年5月，OpenAI發(fā)布了多模態(tài)模型GPT-4o，其支持文本、音頻和圖像的任意組合輸入和輸出。隨后，谷歌也于第二天推出了自己的最新多模態(tài)AI產(chǎn)品Gemini 1.5 Pro。

9月25日，元宇宙平臺公司發(fā)布了其最新的開源大語言模型Llama 3.2。公司首席執(zhí)行官馬克·扎克伯格在主題演講中表示，這是該公司首個開源多模態(tài)模型，可同時處理文本和視覺數(shù)據(jù)，標(biāo)志著AI在理解更復(fù)雜應(yīng)用場景方面取得了重大進(jìn)展。

悄然推動各領(lǐng)域變革

多模態(tài)AI正悄然改變著多個領(lǐng)域的面貌。

在醫(yī)療保健領(lǐng)域，IBM旗下“沃森健康”正對病人的影像學(xué)數(shù)據(jù)、病歷文本和基因數(shù)據(jù)進(jìn)行綜合分析，幫助醫(yī)生更準(zhǔn)確地診斷疾病，有力支持醫(yī)生為病人制訂個性化治療方案。

創(chuàng)意產(chǎn)業(yè)也正在經(jīng)歷一場變革。數(shù)字營銷專家和電影制片人正借助這一技術(shù)打造定制內(nèi)容。試想，只需一個簡單的提示或概念，AI系統(tǒng)就能編撰出引人入勝的劇本，生成故事板（即一系列插圖排列在一起組成的可視化故事）、創(chuàng)作配樂，甚至制作出初步場景剪輯。

教育和培訓(xùn)領(lǐng)域也在多模態(tài)AI助力下向個性化學(xué)習(xí)邁進(jìn)。美國紐頓公司開發(fā)的自適應(yīng)學(xué)習(xí)平臺能利用多模態(tài)AI，深入分析學(xué)生的學(xué)習(xí)行為、表情和語音，實時調(diào)整教學(xué)內(nèi)容和難度。實驗數(shù)據(jù)顯示，這種方法能將學(xué)生的學(xué)習(xí)效率提高40%。

客戶服務(wù)也是多模態(tài)AI系統(tǒng)令人興奮的應(yīng)用之一。聊天機(jī)器人不僅能回應(yīng)文本查詢，還能理解客戶的語調(diào)，分析客戶的面部表情，并用適當(dāng)?shù)恼Z言和可視化線索作出回應(yīng)。這種更接近人類的交流有望徹底改變企業(yè)與客戶的互動方式。

仍需克服技術(shù)倫理挑戰(zhàn)

但多模態(tài)AI發(fā)展也面臨諸多挑戰(zhàn)。

AI咨詢公司“隱空間”創(chuàng)始人亨瑞·艾德爾表示，多模態(tài)AI的強(qiáng)大之處在于能夠整合多種數(shù)據(jù)類型。然而，如何有效整合這些數(shù)據(jù)仍是一個技術(shù)難題。

此外，多模態(tài)AI模型在運行過程中往往需要消耗大量算力資源，這無疑增加了其應(yīng)用成本。

更值得注意的是，多模態(tài)數(shù)據(jù)包含更多個人信息。當(dāng)多模態(tài)AI系統(tǒng)能輕松識別人臉、聲音乃至情緒狀態(tài)時，如何確保個人隱私得到尊重與保護(hù)？又該如何采取有效措施，防止其被用于創(chuàng)建“深度偽造”或其他誤導(dǎo)性內(nèi)容？這些都是值得深思的問題。

責(zé)任編輯：常麗君

姿花直播官方版_姿花直播平台官方app下载_姿花直播免费版app下载

多模態(tài)AI重新定義人機(jī)交互方式

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標(biāo)升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

姿花直播官方版_姿花直播平台官方app下载_姿花直播免费版app下载

多模態(tài)AI重新定義人機(jī)交互方式

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標(biāo)升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁