阿里国际开源Ovis2.6:首创「带图思考」机制,800亿参数MoE推理仅激活30亿
阿里国际数字商业集团(AIDC-AI)于2025年5月正式开源最新多模态大模型 Ovis2.6-80B-A3B。该模型采用混合专家(MoE)架构,总参数量达800亿,但单次推理仅需激活约30亿参数,在保证强大认知能力的同时大幅降低了算力成本。
核心突破:「带图思考」(Think with Image)
Ovis2.6最大的技术创新在于首次引入「带图思考」机制。传统多模态模型通常被动接收完整图像后一次性输出答案,而Ovis2.6在生成思维链时,能够主动调用裁剪、旋转等内置视觉工具,像人类专家一样对图片局部区域「放大细看」,并通过多轮自我反思式推理反复比对验证。这种机制显著提升了复杂视觉任务的准确率,特别是在需要细致观察和逻辑推理的场景中表现尤为突出。
技术升级
相比前代Ovis2.5,Ovis2.6在多个关键维度实现升级:
- 上下文窗口:扩展至64K tokens,支持更长文本的连贯理解
- 图像分辨率:原生支持最高2880×2880高清图片输入
- OCR与图表分析:专门强化光学字符识别和多页文档分析能力,可跨越多页收集线索
- 架构革新:从Dense架构升级为MoE架构,实现「高参数+低激活」的高性价比方案
应用场景
凭借「看得清+抠细节」的能力组合,Ovis2.6特别适用于信息密集型企业场景:
- 海量财务报表分析
- 长篇研究报告理解
- 跨页法律文书审查
- 多图表数据比对
开源生态
Ovis2.6已登陆HuggingFace,采用Apache 2.0开源许可证,开发者可免费商用。结合阿里国际此前开源的Ovis2系列(涵盖1B至34B多种规格),阿里国际化团队正在构建完整的多模态AI开源生态,服务于跨境电商、智能客服、内容审核等40余个业务场景。