阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

快讯：多晶硅期货主力合约快速拉升日内转涨，此前一度跌超4%实垂了 军工信息化板块短线拉升，展鹏科技直线涨停记者时时跟进 创新药概念震荡反弹，昂利康等多股涨停实测是真的 胖东来最新声明：从未发布“电商倒闭致500万人失业”言论，请立即停止传播并删除 4000个拉杆箱免费送，第二十六届“箱约文王”再度启航！太强大了 宁德时代上半年业绩：营收利润双增，动力电池毛利率继续走低这么做真的好么？ 申联生物涨停 17只科创板股涨超5% 中金：升渣打集团目标价至158.8港元维持“跑赢行业”评级秒懂 现代化绿色生物能源工厂——维尔利杭州临江项目 零跑汽车：7月交付50129台同比增长超126%后续来了 深圳拟打造“全球低空经济第一城”！通用航空ETF华宝（159231）蓄势待飞 硅料硅片板块异动拉升，双良节能直线涨停实测是真的 警报！2025年最差的非农就业报告即将来临？美元短线回调风险加剧后续会怎么发展 里昂：升石药集团目标价至17.4港元重申“高度确信跑赢大市”评级实测是真的 科创宝地，扬帆起航：微盟总部大厦今日正式启用科技水平又一个里程碑 电力设备行业董秘薪酬榜：安科瑞收利双降董秘罗叶兰涨薪56万至193万、涨幅位列业内第四最新报道 围绕AI，南京要造一个街区后续来了 龙国煤科天玛智控：国内首套3150L/min液压支架安全阀研制成功并应用官方通报 胡剑涌离职、曾降薪超300万！海信家电资金承压，财务背景女总裁能否扭转颓势实时报道 视频|美的集团连续十年入选《财富》世界500强 FAJ：让图像说话 胡剑涌离职、曾降薪超300万！海信家电资金承压，财务背景女总裁能否扭转颓势 新东方-S港股公司点评：增速进入平稳期，宣布三年股东回报计划是真的吗？ 里昂：降百威亚太目标价至9.3港元维持“跑赢大市”评级 亚马逊云计算业务二季度营收突破300亿美元上半年超过600亿美元学习了 医药上市公司董秘PK：迈瑞医疗李文楣成行业“劳模” 年接待投资者2661次排名第一 原料药上市公司董秘PK：赛分科技王中蕾任董秘不足一年年仅30岁已收获超150万年薪 中药上市公司董秘PK：特一药业许紫兰为行业最年轻董秘年薪57.78万元低于行业均值秒懂 中药上市公司董秘PK：益佰制药蒋先洪任董秘一年即收获140万年薪显著高于行业均值最新进展 原料药上市公司董秘PK：新天地谢雨珊、东亚药业周剑波、欧康医药曹永强年薪不足20万远低于行业均值 中药上市公司董秘PK：华润三九邢健年薪255.87万元行业第一任职董秘尚不足一年实时报道 “打飞的”赴港投保再掀热潮，监管提醒这些风险→最新进展 新易盛获融资资金买入超23亿元丨资金流向日报官方通报来了 美团、淘宝、饿了么、京东，集体声明实时报道 中药上市公司董秘PK：华润三九邢健年薪255.87万元行业第一任职董秘尚不足一年最新报道 医药上市公司董秘PK：康乐卫士任恩奇年仅28岁成最年轻董秘年薪38.32万元低于行业均值 兴业证券保荐“旋转门”：频现保代火速入职问题发行人内控“三道防线”有效性待考这么做真的好么？ 中药上市公司董秘PK：佐力药业吴英成行业“劳模” 年接待投资者410次排名第一 名创优品7月31日斥资24.42万美元回购5.12万股太强大了 中药上市公司董秘PK：特一药业许紫兰为行业最年轻董秘年薪57.78万元低于行业均值秒懂

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo