首个覆盖「七体之变」的古文字感知评测基准问世
5月18日,腾讯混元、SSV数字文化实验室及SSV技术架构部联合安阳师范学院甲骨文信息处理重点实验室、中科院信工所、南开大学等机构,正式发布业界首个覆盖汉字演化全谱的古文字感知评测基准——Chronicles-OCR。该基准首次将甲骨文、金文、篆书、隶书、楷书、行书、草书「七体之变」的识别难度纳入统一量化体系,包含2800张由专家交叉标注的高质量图像,为评估多模态大模型的古文字视觉感知能力提供了标准化的测试框架。
GPT-5、Gemini古文字识别近乎归零
研究团队对28个主流多模态大语言模型进行了系统评测,结果令人意外:在跨时代字符检测任务中,GPT-5和Gemini 2.5 Pro的核心指标接近0,表现最强的模型准确率也仅16.5。即使直接排除文本定位步骤(即预先在图像上标出文字区域),最高准确率也仅有27.1%,其中Gemini 3.1 Pro在甲骨文单项上的准确率更是低至14.0%。
这一结果印证了一个核心问题:现代大模型严重依赖规整的现代版式先验。当面对龟甲兽骨、青铜器皿上无约束、强噪声的古代物理介质时,模型的文本分割机制近乎完全失效,无法有效定位和识别文字区域。
模型识别的是纹理,而非笔画
字体分类实验进一步揭示了更深层的缺陷。研究人员发现,模型在识别古文字时,往往依赖的是载体纹理(如龟甲的裂纹、青铜器的锈蚀痕迹),而非真正的字符笔画��构。换言之,模型并非在「读懂」古文字,而是在通过纹理模式进行猜测性匹配。
这一发现与此前OCR领域的研究趋势相呼应。2025年NeurIPS上发布的OCRBench v2显示,即便是综合表现最佳的Gemini模型,在中文OCR任务上的得分也仅处于及格水平——这说明即便在现代印刷体场景下,多模态大模型的文字识别能力仍有较大提升空间。
开启思考模式反而导致准确率下降
实验中还有一个反直觉的发现:开启思维链(Chain-of-Thought)推理模式反而导致古文字识别率下降。对照实验表明,几乎所有支持该模式的模型在开启思考后表现均出现退化。研究人员分析认为,当底层视觉感知严重缺失时,思维链不仅无法纠错,反而会将错误信号层层放大,生成高置信度的错误答案——即所谓的「幻觉放大器」效应。
AI古文字研究的进展与局限
值得注意的是,AI在古文字研究领域并非毫无建树。2025年10月,腾讯与安阳师范学院等机构联合发布了全球首个甲骨文智能体「殷契行止」,结合知识库验证的闭环推理机制,在甲骨单字识别、摹本生成等方面实现了突破;同年9月,复旦大学研究团队提出的基于部首和象形分析的甲骨文破译框架,也在公开基准数据集上达到了Top-10识别准确率的SOTA水平。
然而Chronicles-OCR的评测结果表明,通用大模型的古文字感知能力仍存在根本性短板,专用模型与通用模型之间的能力鸿沟不容忽视。腾讯此项评测基准的发布,有望为古文字AI的定向优化提供数据支撑,推动该领域从「能用」走向「好用」。