分享一下在本地给deepseek投喂资料训练的坑

作者：分享一下在本地给deepseek投喂资料训练的坑

✨ 部署过程我想着在本地搭建个超厉害的 DeepSeek，就用了 ollama 和 anythingllm。先在 ollama 里把 DeepSeek 模型下载好，这一步还算顺利😌。接着在 anythingllm 里上传了一堆 PDF 和 word 文件，满心期待能有个智能小助手帮我处理文档、答疑解惑。 💥 效果不佳谁知道，实际用起来回答效果差强人意😫。问它一些和我上传资料相关的问题，答案要么不准确，要么就是很敷衍，完全不是我想要的。我就琢磨着是不是得自己投喂资料训练一下，让它更懂我的需求。 🌟 训练遇阻于是我下载了一个 1.5b 的 DeepSeek 模型，找了几十个 PDF 文件准备投喂给模型。结果训练完一测试，还是不行！总结下来有两个大问题： 1️⃣ 数据量太小：DeepSeek 提示我，训练数据量至少需要几十万甚至上百万，才能有比较好的效果。我那几十个 PDF 简直是小巫见大巫，根本不够看。 2️⃣ 显存占用大：训练模型的时候，显存占用比正常使用模型大太多了。就训练这个 1.5b 的模型，直接占用了 48G 显存，我的显卡根本扛不住啊😭。这也意味着如果想要成功训练，得有超强大的硬件支持，一般的设备根本玩不转。宝子们，你们在部署和训练 DeepSeek 的时候有遇到类似问题吗🧐？ #DeepSeek #本地部署 #人工智能踩坑

文章详情

分享一下在本地给deepseek投喂资料训练的坑

推荐阅读