3小时就能训练出自己的大语言模型了！

作者：3小时就能训练出自己的大语言模型了！

有个开源项目【MiniMind】，可以只花费3个小时，就能训练出仅为26M大小的微型语言模型。 MiniMind非常轻量，体积约是GPT3的七千分之一，用不那么高配的GPU也可快速推理甚至训练。看官方他们是用3090跑的 MiniMind改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。具体来说包含： ✅公开MiniMind模型代码（包含Dense和MoE模型）、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源； ✅兼容transformers、accelerate、trl、peft等流行框架； ✅训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练。训练过程中支持在任意位置停止，及在任意位置继续训练； ✅在Ceval数据集上进行模型测试的代码； ✅实现Openai-Api基本的chat接口，便于集成到第三方ChatUI使用（FastGPT、Open-WebUI等）。 #人工智能 #ai #大模型 #开源项目 #大模型训练 #ai技术 #程序员

文章详情

3小时就能训练出自己的大语言模型了！

推荐阅读