MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

阿里国际开源Ovis2.6:800亿参数MoE架构支持「带图思考」,激活仅30亿参数

阿里国际发布开源多模态大模型Ovis2.6-80B-A3B,首次引入「带图思考」机制,结合800亿参数MoE架构实现仅30亿参数激活,在复杂视觉推理和长文档分析任务上取得突破性进展。

References

Ovis2.5模型性能对比图
Ovis系列模型在多模态评测榜单上表现优异 Image source

阿里国际开源Ovis2.6:首创「带图思考」机制,800亿参数MoE推理仅激活30亿

阿里国际数字商业集团(AIDC-AI)于2025年5月正式开源最新多模态大模型 Ovis2.6-80B-A3B。该模型采用混合专家(MoE)架构,总参数量达800亿,但单次推理仅需激活约30亿参数,在保证强大认知能力的同时大幅降低了算力成本。

核心突破:「带图思考」(Think with Image)

Ovis2.6最大的技术创新在于首次引入「带图思考」机制。传统多模态模型通常被动接收完整图像后一次性输出答案,而Ovis2.6在生成思维链时,能够主动调用裁剪、旋转等内置视觉工具,像人类专家一样对图片局部区域「放大细看」,并通过多轮自我反思式推理反复比对验证。这种机制显著提升了复杂视觉任务的准确率,特别是在需要细致观察和逻辑推理的场景中表现尤为突出。

技术升级

相比前代Ovis2.5,Ovis2.6在多个关键维度实现升级:

  • 上下文窗口:扩展至64K tokens,支持更长文本的连贯理解
  • 图像分辨率:原生支持最高2880×2880高清图片输入
  • OCR与图表分析:专门强化光学字符识别和多页文档分析能力,可跨越多页收集线索
  • 架构革新:从Dense架构升级为MoE架构,实现「高参数+低激活」的高性价比方案

应用场景

凭借「看得清+抠细节」的能力组合,Ovis2.6特别适用于信息密集型企业场景

  • 海量财务报表分析
  • 长篇研究报告理解
  • 跨页法律文书审查
  • 多图表数据比对

开源生态

Ovis2.6已登陆HuggingFace,采用Apache 2.0开源许可证,开发者可免费商用。结合阿里国际此前开源的Ovis2系列(涵盖1B至34B多种规格),阿里国际化团队正在构建完整的多模态AI开源生态,服务于跨境电商、智能客服、内容审核等40余个业务场景。