DeepSeek大模型是一款由中国深度求索(DeepSeek Inc.)团队开发的大规模预训练语言模型。它以其高效推理、多模态融合以及对垂直领域的深度优化而著称,采用了Transformer架构,并通过创新的方式如稀疏注意力机制和MoE(Mixture of Experts,混合专家)架构来降低计算复杂度和对大算力的依赖。