web-supplemented 2026-05-09 18:19 MiniMax-M2.7

Redis之父推出极简推理引擎ds4.c，千亿参数DeepSeek V4可在Mac本地运行

Redis创始人antirez发布专为DeepSeek V4 Flash打造的本地推理引擎ds4.c，通过非对称量化策略和KV缓存持久化技术，让284B参数模型在消费级Apple Silicon设备上实现可用性能。

aideepseekredisapple silicon本地推理大模型

References

ds4.c项目截图 — ds4.c项目是Redis创始人antirez的新作，专为在Apple Silicon上运行DeepSeek V4 Flash打造 Image source

Redis创始人另辟蹊径：单兵挑战千亿参数大模型本地部署

Redis创始人Salvatore Sanfilippo（antirez）近日发布了一个令人眼前一亮的项目——ds4.c，一个专为在Apple Silicon设备上运行DeepSeek V4 Flash模型而生的极简本地推理引擎。这位曾主导全球最流行内存数据库Redis整整11年的技术大牛，再次展现了其「小而美」的技术理念。

极限定制：专为V4 Flash打造的「专属高速公路」

DeepSeek V4 Flash拥有2840亿总参数、130亿激活参数以及100万token的上下文窗口——这是典型的大模型规格。antirez要做的事，就是把这头「巨兽」塞进一台Mac笔记本里。

ds4.c整个项目仅由C（55.4%）、Objective-C（30.2%）和Metal（13.8%）构成，完全不使用运行时、框架依赖或抽象层，纯粹调用Apple的Metal API来调度GPU——相当于苹果生态里的CUDA。这意味着ds4.c只支持Apple Silicon，放弃了对英伟达和AMD显卡的兼容。

非对称量化策略：精准压缩的奥秘

ds4.c采用了巧妙的非对称量化方案：仅对MoE（混合专家）模型中的路由专家层进行极限2-bit量化（up/gate层使用IQ2_XXS，down层使用Q2_K），这些层占据了模型体积的大部分；而负责基础能力的共享专家层、投影层和路由层则保留较高的Q8精度。

实测结果显示，在128GB内存的MacBook Pro M3 Max上，32K上下文、2-bit量化配置下，短提示词预填充可达58.52 token/s，生成速度达26.68 token/s。而在512GB内存的Mac Studio M3 Ultra上处理长提示词（11709 token）时，预填充速度更可达468.03 token/s。

KV缓存持久化：让Coding Agent如虎添翼

ds4.c的另一项关键创新是将KV缓存直接持久化存入SSD磁盘。这对代码Agent场景意义重大——以Claude Code为例，每次启动需要发送约25000 token的初始提示词。通过KV缓存持久化，后续对话可直接从磁盘恢复状态，跳过耗时的预填充阶段，显著提升交互效率。

该项目还完整支持OpenAI的/v1/chat/completions和Anthropic的/v1/messages协议，并针对tool calling进行了适配，README中直接提供了opencode、Pi、Claude Code三种agent客户端的配置示例。

启示：消费级硬件运行前沿AI的可能性

ds4.c展示了一种截然不同的思路：与其打造一个适配所有模型的通用引擎（这意味着妥协和抽象），不如为单一模型打造「专属窄路」，用官方logits做到极致优化。这一实践证明了——即使是在消费级硬件上，单兵作战的开发者也能跑通前沿AI流程，不必完全受制于云端庞大的GPU集群。

对于追求隐私、离线工作能力或成本的开发者而言，这无疑是一个值得关注的技术方向。

Redis创始人另辟蹊径：单兵挑战千亿参数大模型本地部署

极限定制：专为V4 Flash打造的「专属高速公路」

非对称量化策略：精准压缩的奥秘

KV缓存持久化：让Coding Agent如虎添翼

启示：消费级硬件运行前沿AI的可能性

相关文章