DeepSeek发布6710亿参数新模型Prover-V2

2025-04-30 19:00:48 · 0 · 作者:admin

4月30日,DeepSeek在Hugging Face上发布Prover-V2-671B模型。该模型参数量达6710亿,采用DeepSeek-V3架构与MoE模式,拥有61层Transformer和7168维隐藏层。支持超长上下文(最大位置嵌入163840),并使用FP8量化技术优化推理效率及减小模型体积,方便训练和部署,或为Prover-V1.5升级版,适用于复杂数学证明任务。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

分享到: