聲網(wǎng)攜“陸卡卡”亮相AWE:從“能聽會(huì)說(shuō)”邁向“能看會(huì)動(dòng)”的智能新跨越
3月12日,以“AI科技、慧享未來(lái)”為主題的2026年中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2026)于上海新國(guó)際博覽中心拉開帷幕。楊浦企業(yè)聲網(wǎng)此次帶來(lái)兩項(xiàng)全新成果參展:對(duì)話式AI開發(fā)套件R2系列產(chǎn)品,以及“泛IPC(網(wǎng)絡(luò)攝像機(jī))實(shí)時(shí)交互+智能處理引擎”。同時(shí),數(shù)十款搭載其技術(shù)的智能硬件同步展示,直觀呈現(xiàn)了實(shí)時(shí)音視頻技術(shù)(RTC)如何讓機(jī)器與人的互動(dòng)更趨自然。
一年三次迭代 開發(fā)套件新增視覺與運(yùn)動(dòng)能力
在聲網(wǎng)展臺(tái),一款名為“陸卡卡”的桌面機(jī)器人格外吸睛。當(dāng)人走近時(shí),它會(huì)轉(zhuǎn)動(dòng)頭部“注視”來(lái)人;若指向某個(gè)方向,它能循聲望向目標(biāo)位置。這種“被看見”“被注視”的交互體驗(yàn),讓機(jī)器不再是被動(dòng)應(yīng)答的工具,更像有生命感的陪伴者。
支撐這一體驗(yàn)的是聲網(wǎng)最新發(fā)布的R2全場(chǎng)景AI機(jī)器人開發(fā)套件原型機(jī)。相較于一年前的R1套件,R2的核心升級(jí)在于新增本地視覺識(shí)別與多自由度運(yùn)動(dòng)控制能力——搭載R2的硬件不僅能聽懂語(yǔ)音,還可識(shí)別手勢(shì)、追蹤人臉軌跡,并做出對(duì)應(yīng)動(dòng)作。
據(jù)悉,聲網(wǎng)去年3月首次推出對(duì)話式AI開發(fā)套件R1,重點(diǎn)解決實(shí)時(shí)對(duì)話中的背景降噪與智能打斷問(wèn)題,讓用戶與機(jī)器聊天無(wú)需頻繁使用“小X小X”類喚醒詞,交互體驗(yàn)更接近人際對(duì)話。該套件自發(fā)布以來(lái)出貨量已達(dá)百萬(wàn)級(jí),廣泛應(yīng)用于AI玩具、陪伴機(jī)器人等產(chǎn)品。去年9月,針對(duì)移動(dòng)化需求,聲網(wǎng)聯(lián)合芯片企業(yè)推出支持4G通信的版本,使AI硬件能隨時(shí)隨地在線,滿足車載等場(chǎng)景需求。
從R1到R2,一年內(nèi)完成三次迭代,聲網(wǎng)為硬件廠商提供了從“能聽會(huì)說(shuō)”升級(jí)至“能看會(huì)動(dòng)”的完整技術(shù)方案。業(yè)內(nèi)人士指出,運(yùn)動(dòng)控制與端側(cè)視覺能力的加入,將推動(dòng)具身智能機(jī)器人成為未來(lái)重要發(fā)展方向。
開源底層技術(shù) 吸引芯片廠商共建生態(tài)
今年初,聲網(wǎng)宣布將核心硬件抽象層項(xiàng)目AOSL在GitHub全面開源。簡(jiǎn)單而言,AOSL如同通用“翻譯器”,可讓不同操作系統(tǒng)與芯片順暢運(yùn)行聲網(wǎng)的實(shí)時(shí)互動(dòng)技術(shù)。對(duì)芯片廠商來(lái)說(shuō),接入AOSL意味著其硬件出廠即具備“聲網(wǎng)級(jí)”實(shí)時(shí)互動(dòng)能力。
本次AWE上,聲網(wǎng)首次展示了開源生態(tài)的最新成果。這種“開源底座+商業(yè)套件”的模式,正吸引越來(lái)越多芯片廠商加入,使硬件創(chuàng)新從“一次性定制”轉(zhuǎn)向更高效的生態(tài)協(xié)作。
助力設(shè)備出海 實(shí)現(xiàn)全球秒見圖與弱網(wǎng)穩(wěn)定連
除對(duì)話式AI套件外,聲網(wǎng)還發(fā)布了面向攝像頭、掃地機(jī)器人、3D打印機(jī)、寵物喂食器等設(shè)備的“泛IPC實(shí)時(shí)交互+智能處理引擎”。
隨著中國(guó)智能設(shè)備加速出海,用戶對(duì)產(chǎn)品的要求日益提高:在網(wǎng)絡(luò)條件不佳的地區(qū),能秒速打開家庭監(jiān)控畫面;掃地機(jī)器人進(jìn)入庭院角落、割草機(jī)穿行花園邊緣時(shí),仍能保持連接不“失聯(lián)亂撞”;寵物出現(xiàn)異常時(shí)可第一時(shí)間收到提醒……
聲網(wǎng)的解決方案集成四項(xiàng)核心能力:依托自研全球?qū)崟r(shí)網(wǎng)絡(luò),覆蓋200多個(gè)國(guó)家和地區(qū),建聯(lián)成功率超99.9%,首次畫面打開時(shí)間達(dá)毫秒級(jí),實(shí)現(xiàn)“秒見圖”;極端弱網(wǎng)環(huán)境下,即使音視頻數(shù)據(jù)丟失80%,仍能保障畫面流暢與指令實(shí)時(shí)響應(yīng);傳輸過(guò)程中同步完成寵物檢測(cè)、人臉識(shí)別等AI分析,結(jié)果實(shí)時(shí)推送至用戶端;支持多人同時(shí)觀看交互,并符合全球多地?cái)?shù)據(jù)安全法規(guī)。
回顧十年發(fā)展,無(wú)論是手機(jī)APP還是智能硬件,產(chǎn)品形態(tài)雖不斷變化,但人們用自然語(yǔ)言與機(jī)器交流的需求始終未變。當(dāng)AI硬件從“功能機(jī)”向“情感機(jī)”進(jìn)化,實(shí)時(shí)互動(dòng)體驗(yàn)已成為產(chǎn)品成敗的關(guān)鍵。作為全球領(lǐng)先的實(shí)時(shí)音視頻云服務(wù)商,聲網(wǎng)正通過(guò)持續(xù)技術(shù)迭代,將復(fù)雜的實(shí)時(shí)互動(dòng)能力轉(zhuǎn)化為標(biāo)準(zhǔn)化模塊,為萬(wàn)物智聯(lián)時(shí)代鋪設(shè)底層通路。
文字:毛信慧
圖片:毛信慧
原標(biāo)題:《從“能聽會(huì)說(shuō)”到“能看會(huì)動(dòng)”,聲網(wǎng)攜“陸卡卡”亮相AWE》
閱讀原文
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



