【導讀】TWS耳機正經歷從簡單音頻設備到智能可穿戴計算機的轉型。這些設備如今需要處理實時語音增強、環境降噪、語音識別、生物追蹤等多重任務,而所有這些功能都需在嚴格的功耗預算和硬件限制下實現。現代TWS耳機的設計面臨巨大挑戰:端到端音頻延遲需保持在4-10毫秒,始終監聽功能必須以微瓦級功耗待機,片上SRAM容量緊張,閃存占用空間固定。解決這些挑戰的關鍵不在于單一的神奇模型或更快的核心,而在于一系列創新壓縮技術的綜合應用。
通過稀疏性、量化和內存感知調度等壓縮技術,TWS耳機在不大幅增加電池容量或使用更昂貴芯片的情況下,成功實現了多模型AI功能的集成與協作。
TWS耳機正經歷從簡單音頻設備到智能可穿戴計算機的轉型。這些設備如今需要處理實時語音增強、環境降噪、語音識別、生物追蹤等多重任務,而所有這些功能都需在嚴格的功耗預算和硬件限制下實現。現代TWS耳機的設計面臨巨大挑戰:端到端音頻延遲需保持在4-10毫秒,始終監聽功能必須以微瓦級功耗待機,片上SRAM容量緊張,閃存占用空間固定。解決這些挑戰的關鍵不在于單一的神奇模型或更快的核心,而在于一系列創新壓縮技術的綜合應用。
01 技術挑戰:微型設備的AI化困境
TWS耳機集成AI功能面臨多重約束。功耗限制是最主要的挑戰,設備需要在不增大電池體積的情況下實現所有功能;計算資源有限,片上內存和存儲空間極為緊張;實時性要求高,音頻處理需要低延遲響應;成本壓力大,不能使用過于昂貴的芯片解決方案。
這些約束條件使得傳統的AI模型部署方式不可行。現代可聽設備正在融合:TWS耳機增加了輔助聆聽功能;助聽器增加了連接性和更豐富的用戶體驗;高端耳機則向健康和健身領域邁進。典型的期望功能包括:用于通話和面對面降噪的實時語音增強、喚醒詞加口語理解加語音ID實現免提控制和個性化、反饋消除和自適應均衡壓縮及主動降噪、生物追蹤與活動監測、運動追蹤等。
02 壓縮技術三重奏:稀疏性、量化和內存優化
量化技術通過降低數據精度來減少存儲和計算需求。從32位浮點(float32)轉為8位整數(INT8)權重可立即減少4倍存儲量,并通過更窄的數據路徑節省能耗。許多音頻模型在使用逐通道縮放時,對INT8的耐受性強,質量影響極小。量化感知訓練有助于進一步縮小量化與浮點性能之間的差距。
稀疏性技術通過消除不重要的連接來優化模型。修剪90%的權重可使參數存儲量減少約10倍(這也能降低SRAM漏電),并且當硬件實際跳過零權重時,修剪層的乘加運算(MAC)可減少約10倍。
激活稀疏性利用語音的突發性特點。即使沒有特殊的激活稀疏性損失函數,在流音頻模型中也常觀察到約50%-70%的稀疏激活(在更安靜的環境中更高)。當硬件能夠動態跳過零時,運行時MAC可減少2-3.33倍。
03 內存感知調度與架構優化
內存感知調度是另一項關鍵技術。通過精簡模型、使用因果時間卷積網絡(TCN)或小狀態循環神經網絡(RNN)模型實現低延遲流處理、融合操作符以減少SRAM的傳遞次數、利用激活重用、考慮內存層次結構進行分塊等方法,可以顯著優化內存使用效率。
對于多特征系統,共享前端(短時傅里葉變換/差分對數梅爾濾波器組)可以避免特征重復計算相同的緩沖區。這種優化策略能夠顯著降低內存占用和提高計算效率。
架構設計上,需要考慮流式友好和融合操作符。因果卷積、小狀態RNN單元、對新興網絡(如狀態空間模型(SSMs)和滑動窗口注意力)的未來-proof自定義操作符支持、突發友好的直接內存訪問(DMA)和多種電源循環模式都是關鍵考慮因素。
04 實際應用與性能提升
壓縮技術的實際效果令人印象深刻。考慮一個實時時間卷積循環神經網絡(TCRNN)語音增強模型。在密集狀態下,它有約600萬個參數,浮點精度下約24兆字節。使用INT8后,降至約6兆字節。結合90%的權重稀疏性,權重僅需約600千字節;加上約100千字節的激活緩沖區(重用時總計約700千字節)。
這一占用空間足夠小,可與其他功能共存。例如,在1兆字節的SRAM空間中,可預留約300千字節用于喚醒詞加SLU路徑(如通過適度稀疏性和INT8將約500千字節的基線壓縮至約100千字節),還剩約200千字節用于語音ID嵌入、聲音事件檢測器、反饋消除器或IMU活動分類模型。
稀疏性在功耗和延遲方面也真正發揮了優勢:去噪器以約1.2毫瓦運行時延遲為8毫秒,以約2.1毫瓦運行時延遲為4毫秒。對于100毫安時的電池,這為無線電以及其他功能和傳感器留出了充足預算。
05 硬件創新與專用芯片
專用芯片的出現進一步推動了TWS耳機的AI化進程。例如,FemtoAI的SPU-001處理器擁有1兆字節SRAM,在90%稀疏性下等效內存為10兆字節。采用22納米理想節點,面積3.4平方毫米。它支持上述技術,并將稀疏性作為核心特性。
存算一體技術是另一個有前景的方向。知存科技自主研發的存算一體SoC芯片WTM2101已于2022年初正式量產,這是國際上量產的首個存算一體SoC芯片。存算一體基于歐姆定律,矩陣乘法效率提高50-100倍,對于穿戴設備來說,提供了能在低功耗下運行很大算力的AI算法。
采用存算一體芯片的可穿戴設備可以提供大算力,傳統芯片的功耗在50mA到100mA之間,但是存算一體可以把功耗降低到1mA。這種技術特別適合實時聲音處理,如聲音增強、通話降噪、聲音美化、人聲增強等AI算法。
06 實際應用案例與市場動態
業界領先企業已經開始應用這些技術。WISHEE AI耳機融合了DeepSeek R1深度思考模型,采用多模型協作機制,根據用戶問題的類型和需求,AI Agent會智能拆分子任務,并匹配最適合的模型進行處理。
小米在2025年推出的Xiaomi Buds 5 Pro系列采用了行業罕見的雙功放三單元聲學系統,結合11mm內外雙磁動圈、壓電陶瓷單元和振膜技術,實現了15-50KHz的超寬頻響應。在算法方面,小米團隊與哈曼金耳朵大師合作,采用"哈曼大師"調音方案,結合深度學習算法,實現了旗艦級的空間音頻體驗。
2025年9月,立訊精密與美國邊緣人工智能芯片企業PIMIC達成戰略合作,雙方將基于PIMIC的邊緣AI芯片技術,共同開發新一代智能可穿戴產品。這項聯合技術將很快應用于無線耳機、AI/AR眼鏡及AIoT設備等可穿戴產品。
FemtoAI 的 SPU-001 芯片
07 實施建議與最佳實踐
實施AI功能時,門控調度是一個實用模式。始終保持超低功耗監聽器(喚醒詞、瞬態/語音活動)運行,這是最小、最省電的模型(包括前端約200微瓦)。觸發后,僅在需要時啟動較重的任務(SLU、上下文更新),然后將其轉入SRAM保留模式。
共享功能并統一前端也很重要。去噪器的聲學特征也可用于環境分類或語音ID。從每個應用中提取所需的最高分辨率快速傅里葉變換(FFT)(可能是語音增強或聲源分離),并為低復雜度任務融合FFT bins,避免重復計算前端。
對于生物和活動追蹤,應依靠壓縮性好的緊湊時間模型(TCNs/RNNs);積極下采樣和壓縮時間窗口。在采樣時采用占空比(心率和體溫無需24/7追蹤);當出現較大變化或用戶打開配對的健康/健身應用以獲取更高精度時,提高采樣率。
結語
TWS耳機的AI化轉型正在通過稀疏性、量化和內存感知調度等壓縮技術取得突破性進展。這些技術使多個小模型能夠實時共存與協作,在不增大電池或使用更昂貴芯片的情況下實現豐富功能。隨著專用芯片和存算一體架構的發展,以及業界對壓縮技術的深入理解,TWS耳機將真正轉變為智能可穿戴計算機,為用戶提供更加豐富和便捷的體驗。
推薦閱讀: