文章详情

专注互联网科技,赋能企业数字化发展

3小时就能训练出自己的大语言模型了!

作者:3小时就能训练出自己的大语言模型了!

有个开源项目【MiniMind】,可以只花费3个小时,就能训练出仅为26M大小的微型语言模型。 MiniMind非常轻量,体积约是GPT3的七千分之一,用不那么高配的GPU也可快速推理甚至训练。看官方他们是用3090跑的 MiniMind改进自DeepSeek-V2、Llama3结构,项目包含整个数据处理、pretrain、sft、dpo的全部阶段,包含混合专家(MoE)模型。 具体来说包含: ✅公开MiniMind模型代码(包含Dense和MoE模型)、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源; ✅兼容transformers、accelerate、trl、peft等流行框架; ✅训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练。训练过程中支持在任意位置停止,及在任意位置继续训练; ✅在Ceval数据集上进行模型测试的代码; ✅实现Openai-Api基本的chat接口,便于集成到第三方ChatUI使用(FastGPT、Open-WebUI等)。 #人工智能 #ai #大模型 #开源项目 #大模型训练 #ai技术 #程序员

返回新闻列表