我刚刚看到PrismML推出了一些相当有趣的东西:Ternary Bonsai系列的语言模型。让我注意到的是他们成功大幅度降低了GPU内存的消耗,比起16位模型减少到九分之一。基本上,他们使用了只有1.58比特的三值权重,这些权重只能取三个值:-1、0或+1。听起来很技术性,但其核心思想是去除神经网络中的冗余连接,以提升推理能力而不牺牲性能。



关于价格和可访问性,Bonsai 8B模型的权重存储仅占用1.75 GB,非常适合边缘设备使用。相比一些更重的方案,性价比非常高。在基准测试中平均得分达75.5,甚至超过了其1比特前身和类似的稠密模型。最棒的是,它可以在苹果设备上原生运行,无需特殊的变通方法。

在速度方面,在iPhone 17 Pro Max上实现了每秒27个tokens,能耗效率比之前高出3到4倍。这对于移动设备上的推理来说是一个显著的飞跃。目前,他们提供了8B、4B和1.7B参数的模型,全部在Hugging Face上以Apache 2.0开源。对于那些希望在不花大钱的基础设施上实现高性能AI解决方案的开发者来说,这些Bonsai模型看起来是一个相当稳妥的选择。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论