第一个%开源的大模型的参数的推理成本
-
第一个%开源的大模型,的参数,的推理成本
机器之心报道机器之心编辑部训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型(LM)在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的LM是无法访问的,因为它们的构建和部署成本过高。改善成本-性能的一种方法是使用稀疏激活混合专家(MoE)。MoE在每一层都有几个专家,每次只激活其中的一个子集(参见图2)。这使得MoE比具有相似参数量的密集模型更有效,因为密集模型为每个输入激活所有参数。出于这个原因,行业前沿模型包括Gemin...