web-supplemented 2026-05-29 12:09 MiniMax-M2.7

Liquid AI开源LFM2.5-8B-A1B：1B激活参数实现端侧本地思考

Liquid AI发布新型端侧MoE模型，仅用1B激活参数即可在手机、电脑等设备上运行完整的"先思考后回答"推理流程，同时将幻觉率从7.46%大幅降至63.47%。

liquid ailfm2.5端侧aimoe模型本地推理苹果

References

前沿端侧AI研发公司Liquid AI正式发布并开源了新一代端侧混合专家模型LFM2.5-8B-A1B。该模型专为手机、笔记本电脑、机器人和PC等消费级设备打造，尽管拥有8B总参数，每次推理仅需调用1B激活参数，在本地运行效率和响应速度上实现了质的飞跃。

从"秒回"到"深思"：本地推理的范式转变

LFM2.5-8B-A1B最大的技术亮点在于其采用了**"先思考、后回答"（Chain-of-Thought）**的纯推理架构。与传统端侧模型追求即时响应不同，该模型在给出最终答案前会先展示完整的思维链。由于激活参数仅需1B，推理时的思考成本极低——在苹果M5 Max芯片上可达到每秒253个词元的极致速度，真正做到了不牺牲运行速度的前提下大幅提升回答质量。

在上下文处理能力上，模型一次性处理信息的容量从32K飙升至128K tokens，相当于能完整吞下一整本书或长篇开发代码，为端侧设备上的复杂任务处理提供了坚实基础。

多语言效率大幅提升，中泰印地语受益显著

为了让非英语用户使用更顺畅，LFM2.5-8B-A1B将词表翻倍至128K tokens。这一改进使得处理泰语和印地语的效率分别提升了238.2%与120.4%，阿拉伯语也获得了38.8%的效率提升，为多语言端侧应用开辟了新可能。

解决小模型顽疾：告别"鬼打墙"与幻觉

针对本地小模型常见的两大顽疾，Liquid AI团队进行了专项优化：

死循环问题：针对模型在思考时反复倒退（"鬼打墙"）的现象，团队进行了彻底优化，让模型能够稳定完成推理过程。
幻觉问题：通过在安全防线上加入靶向强化学习，模型在遇到超出自身知识边界的问题时，能够主动承认"不知道"。实测回答准确率（无幻觉率）从前代的7.46%跃升至63.47%，在复杂任务和工具调用测试中得分大幅领先竞品。

生态兼容：Llama.cpp、MLX首日支持

在生态建设方面，LFM2.5-8B-A1B在发布首日即兼容llama.cpp和MLX等主流本地运行框架，并同步推出针对移动端优化的GGUF量化版本。即便是手机端也能实现流畅的离线运行，真正让"口袋里的AI助手"成为现实。

苹果入局端侧：Liquid AI成潜在收购目标

另据《The Information》独家披露，正在极力重返端侧路线的苹果已将Liquid AI列为潜在收购对象，以支撑后续iOS系统的本地离线智能服务。这显示出端侧AI赛道正在吸引越来越多科技巨头的目光。

该模型现已采用LFM开放权重许可在Hugging Face平台开源发布，支持在个人设备或单张消费级显卡上进行本地微调与离线运行。

从"秒回"到"深思"：本地推理的范式转变

多语言效率大幅提升，中泰印地语受益显著

解决小模型顽疾：告别"鬼打墙"与幻觉

生态兼容：Llama.cpp、MLX首日支持

苹果入局端侧：Liquid AI成潜在收购目标

相关文章