1
1
阿里巴巴開源語音驅動數碼人類生成模型 降虛擬人製作門檻促開發者參與創新
文章索引: AI Alibaba Biztech IT要聞
繼初音未來這類由真人驅動或預設腳本的虛擬人(Virtual Human)取得空前成功後,近年在 AI 技術高速發展下,由AI 智能驅動,具備語境理解能力,主打智慧型虛擬代理人的數碼人類(Digital Human)亦紛紛湧現。如 DeepBrain AI 便專注開發新聞主播及客服虛擬人。

近日,阿里巴巴便發佈並開源全新語音驅動生影片模型「Wan2.2-S2V」,進一步推動數碼人類技術的創新應用。

該模型可透過單張人像圖片及一段語音音檔,生成具備電影級畫質的虛擬人物動畫,支援說話、唱歌及表演等多種動作,呈現自然流暢的角色動態。
阿里雲推端到端多模態大模型 Qwen2.5-Omni-7B 輕量級參數高效能應用場景
文章索引: AI LLM Alibaba Biztech
生成式 AI 的商業化應用正不斷擴展,從智能客服、市場推廣到市場分析,生成式 AI 正逐步成為驅動商業模式變革的核心技術之一。過去數月間,各大科技公司爭相推出新的大模型,如 Google 的 Gemini 2.5、OpenAI 的 o3、Meta 的 Llama 3.3、X(前 Twitter)的 Grok 3、Anthropic 的 Claude 3.7、Amazon 的 Nova Premier、Microsoft 的 Phi-4,還有話題王 DeepSeek 的 R1 和 V3 等。

阿里雲亦不甘後人,近日宣佈推出端到端多模態 AI 模型 Qwen2.5-Omni-7B,展現多模態生成能力及高效能應用場景。

Qwen2.5-Omni-7B 專為全模態感知設計,能處理文本、圖像、音檔及影片等多模態輸入,並實時生成自然語言對答,適用於手機、筆記本電腦等終端設備的部署。儘管僅採用輕量級的 7B 參數,Qwen2.5-Omni-7B 的應用前景仍相當廣泛,包括即時語音導航協助視障者辨識周邊環境、分析影片中的食材提供烹飪指導,以及創建理解客戶需求的智能客服對話體驗。
1
1