云耀计算AI-Claura,在树莓派运行的AI

云耀计算AI-Claura,在树莓派运行的AI
模型下载地址https://gitee.com/jiasiqi2025/Open-Claura官方网站https://bksy.top正文Claura这个项目有意思的地方在于它把一个能对话的AI塞进了400MB跑在树莓派和15年前的老爷电脑上。不是靠魔法是靠几项扎实的压缩技术。核心指标2亿参数0.2BFP16半精度量化模型文件约400MB纯CPU推理无需GPU、无需NPU、无需任何加速卡基于T5架构重构。模型蒸馏Claura不是从零训练的而是从一个更大的模型那里学来的。蒸馏的核心逻辑是大模型教师在大量数据上做推理生成软标签概率分布小模型学生直接拟合这些软标签而不是拟合原始数据。这样做的好处是软标签包含了教师对类间相似性的理解信息密度比硬标签高得多。学生不用从头摸索直接继承教师的判断边界。参数从几百亿压到2亿智能水平掉得不算太狠靠的就是这手。架构砍层T5原生结构对树莓派来说太重了。Claura做了几件事削减Transformer层的数量缩小隐藏层维度精简注意力头的个数。本质上是在模型深度和宽度上同时动刀。但也不是瞎砍。层数少了模型的表达能力下降但推理速度线性提升头数少了注意力矩阵的计算量呈平方级下降。这个权衡的结果就是模型能跑但复杂任务明显吃力——写诗只能憋出一句就是因为深层语义关联能力被削了。FP16量化Claura用的是FP16不是INT8。FP16把每个参数从32位浮点压缩到16位体积直接减半。2亿参数 × 2字节 400MB刚好对上。为什么选FP16而不是INT8INT8体积更小2亿参数 × 1字节 200MB但精度损失大推理时输出质量明显下滑。FP16在体积和性能之间取了个折中精度损失控制在可接受范围内推理时也不需要额外的反量化步骤CPU跑起来更省事。CPU推理Claura最反潮流的地方是它完全放弃GPU加速。在模型设计阶段就把纯CPU运行当成硬约束所有算子都避开CUDA依赖只调用CPU原生的数学运算库。这就意味着推理速度慢——树莓派上每秒也就几个token。但也意味着兼容性拉满不需要显卡驱动不挑CUDA版本ARM架构的树莓派能跑x86的15年老电脑也能跑甚至某些嵌入式Linux设备也能跑。在这个靠显卡吃饭的AI时代Claura反手一套纯CPU方案等于告诉所有人我不跟你们卷算力我卷的是有CPU就能跑。屏蔽脏话这不是模型的一部分是外面套的一层过滤网。实现方式很简单一个敏感词表 正则匹配。输入和输出都会过一遍命中就替换或拒绝。和模型本身无关纯工程手段但实用。Claura不走流式输出而是提前生成一个候选回复池再从中选一条最合适的整句输出。这样做的好处是在树莓派的弱CPU上逐字流式输出反而容易卡顿预生成整句输出让体验更连贯。坏处是响应延迟固定不管问题难易都得等那么久。我正在研究如何让ai模型在不损失智商或轻微轻损失智商的情况下运行在弱性能设备上如果你感兴趣那么请联系我2134286739qq.com