輕量級參數高效能應用場景
生成式 AI 的商業化應用正不斷擴展,從智能客服、市場推廣到市場分析,生成式 AI 正逐步成為驅動商業模式變革的核心技術之一。過去數月間,各大科技公司爭相推出新的大模型,如 Google 的 Gemini 2.5、OpenAI 的 o3、Meta 的 Llama 3.3、X(前 Twitter)的 Grok 3、Anthropic 的 Claude 3.7、Amazon 的 Nova Premier、Microsoft 的 Phi-4,還有話題王 DeepSeek 的 R1 和 V3 等。
阿里雲亦不甘後人,近日宣佈推出端到端多模態 AI 模型 Qwen2.5-Omni-7B,展現多模態生成能力及高效能應用場景。
Qwen2.5-Omni-7B 專為全模態感知設計,能處理文本、圖像、音檔及影片等多模態輸入,並實時生成自然語言對答,適用於手機、筆記本電腦等終端設備的部署。儘管僅採用輕量級的 7B 參數,Qwen2.5-Omni-7B 的應用前景仍相當廣泛,包括即時語音導航協助視障者辨識周邊環境、分析影片中的食材提供烹飪指導,以及創建理解客戶需求的智能客服對話體驗。
阿里雲已將該模型開源,並提供多種獲取途徑,包括:Hugging Face、GitHub 及 阿里雲開源社區 ModelScope。目前,阿里雲已開源超過 200 個生成式 AI 模型。
創新架構實現高性能表現
Qwen2.5-Omni-7B 在實時語音交互、自然語言生成及端到端語言指令跟蹤方面的表現,全賴三大創新架構:
▪️Thinker-Talker 架構透過分離文本生成(由 Thinker 處理)與語言合成(由 Talker 執行),降低多模態間的相互干擾,確保高品質輸出;
▪️TMRoPE(Time-aligned Multimodal RoPE)位置編碼技術,通過時間軸對齊來達致影片與音檔輸入的精準同步,實現內容生成的高度連貫性;
▪️通過 Block-wise Streaming Processing 區塊串流處理技術,實現低延遲音頻響應,提供無縫語音交互體驗。
Qwen2.5-Omni-7B 基於海量多模態數據進行預訓練,涵蓋圖文、影片文、影音、音文及純文本數據,確保其在各項任務中皆能展現強健性能。通過情境學習(in-context learning,ICL)及強化學習(reinforcement learning,RL),Qwen2.5-Omni-7B 在語音理解與生成方面表現成熟,模型生成穩定性顯著提升,注意力偏移、發音錯誤與不當停頓現象亦得以大幅減少。