Redis创始人另辟蹊径:单兵挑战千亿参数大模型本地部署
Redis创始人Salvatore Sanfilippo(antirez)近日发布了一个令人眼前一亮的项目——ds4.c,一个专为在Apple Silicon设备上运行DeepSeek V4 Flash模型而生的极简本地推理引擎。这位曾主导全球最流行内存数据库Redis整整11年的技术大牛,再次展现了其「小而美」的技术理念。
极限定制:专为V4 Flash打造的「专属高速公路」
DeepSeek V4 Flash拥有2840亿总参数、130亿激活参数以及100万token的上下文窗口——这是典型的大模型规格。antirez要做的事,就是把这头「巨兽」塞进一台Mac笔记本里。
ds4.c整个项目仅由C(55.4%)、Objective-C(30.2%)和Metal(13.8%)构成,完全不使用运行时、框架依赖或抽象层,纯粹调用Apple的Metal API来调度GPU——相当于苹果生态里的CUDA。这意味着ds4.c只支持Apple Silicon,放弃了对英伟达和AMD显卡的兼容。
非对称量化策略:精准压缩的奥秘
ds4.c采用了巧妙的非对称量化方案:仅对MoE(混合专家)模型中的路由专家层进行极限2-bit量化(up/gate层使用IQ2_XXS,down层使用Q2_K),这些层占据了模型体积的大部分;而负责基础能力的共享专家层、投影层和路由层则保留较高的Q8精度。
实测结果显示,在128GB内存的MacBook Pro M3 Max上,32K上下文、2-bit量化配置下,短提示词预填充可达58.52 token/s,生成速度达26.68 token/s。而在512GB内存的Mac Studio M3 Ultra上处理长提示词(11709 token)时,预填充速度更可达468.03 token/s。
KV缓存持久化:让Coding Agent如虎添翼
ds4.c的另一项关键创新是将KV缓存直接持久化存入SSD磁盘。这对代码Agent场景意义重大——以Claude Code为例,每次启动需要发送约25000 token的初始提示词。通过KV缓存持久化,后续对话可直接从磁盘恢复状态,跳过耗时的预填充阶段,显著提升交互效率。
该项目还完整支持OpenAI的/v1/chat/completions和Anthropic的/v1/messages协议,并针对tool calling进行了适配,README中直接提供了opencode、Pi、Claude Code三种agent客户端的配置示例。
启示:消费级硬件运行前沿AI的可能性
ds4.c展示了一种截然不同的思路:与其打造一个适配所有模型的通用引擎(这意味着妥协和抽象),不如为单一模型打造「专属窄路」,用官方logits做到极致优化。这一实践证明了——即使是在消费级硬件上,单兵作战的开发者也能跑通前沿AI流程,不必完全受制于云端庞大的GPU集群。
对于追求隐私、离线工作能力或成本的开发者而言,这无疑是一个值得关注的技术方向。