Webman AI + DeepSeek本地训练，打造私有知识库

walkor 更新于2025-03-12

Webman AI 发布5.4.0版本，支持选择任意embedding模型，这一突破性更新使得用户能够将Webman AI与本地
DeepSeek等开源模型无缝结合，打造专属的私有知识库系统。通过本地化训练与部署，用户可以无需依赖网络连接即可实现内部专有AI知识库助理。

以下是完整的教程，如果你之前执行过相关训练操作，有些步骤可以直接跳过。

训练模块部署步骤

假设你已经安装了webman/ai

步骤一：安装redis-stack服务端（注意普通redis-server服务端不支持，要用redis-stack才行）

docker pull docker.1ms.run/redis/redis-stack
mkdir /home/data/redis -p
docker run --name redis-stack -v /home/data/redis:/data -p 6380:6379 -d redis/redis-stack

步骤二：给webman安装illuminate/redis组件

webman-v2版本 webman根目录执行

composer require -W webman/redis illuminate/events

webman-v1版本 webman根目录执行

composer require -W illuminate/redis illuminate/events

步骤三：配置redis

新建 plugin/ai/config/redis.php，内容如下

<?php
return [
    'default' => [
        'host' => '127.0.0.1',
        'password' => null,
        'port' => 6380,
        'database' => 0,
    ],
];

安装ollama并添加deepseek等相关模型

安装 ollama，并执行

ollama pull nomic-embed-text
ollama pull deepseek-r1:14b

提示
nomic-embed-text 是向量模型，训练必须安装
除了 deepseek-r1:14b 还可以选 deepseek-coder-v2:latest qwen2.5:14b 等模型

添加deepseek相关模型

步骤四：重启webman

Linux: webman根目录运行 php start.php restart -d
Windows: 按ctl c停止webman，然后运行 php windows.php start

训练过程

新增训练集

导入数据

提示
如果提示 Class'Redis' not found 是因为没有给PHP安装Redis扩展。

训练的文本样例

注意：训练内容没有固定格式，训练的数据最好顶部加上一个对本内容的总结性标题或提问，这样效果才会最好。类似上面这个截图

完整的webman手册样本数据，点击这里下载

提示
导入数据目前只支持txt和md为后缀的文件，单个文件大小不能大于9k。支持压缩包上传，同理压缩包内每个文件大小不能大于9k。

开始训练

AI训练数据里的内容向量里有值，说明此条记录已经训练完毕，内容向量同时会在redis-stack里存储一份，用来快速检索。

注意
如果你不想让你训练的模型回复训练内容以外的数据，可以在角色提示词里明示。例如webman手册助手的角色提示词如下：
“webman是一个高性能php框架，你是一个webman助手，以下是webman文档，请根据文档回复，如果无法得到答案或者不是webman相关的问题则回复文档中未找到对应的答案。请确保回复正确。”

设置角色

在需要使用训练数据的角色里选择训练集，保存。(前端用户需要刷新页面角色才能生效)
AI就会使用训练集里的数据回复问题。

测试结果

 1541  11 8

11个回答

liziyu 2025-03-12

🐂🐂🐂

暂无评论

ccc 2025-03-12

666

暂无评论

半本正经 2025-03-12

这个要跟上了。顶个！

暂无评论

mewchen 2025-03-12

非常Nice~

暂无评论

Jason X 2025-03-12

大佬，支持使用爬虫从网上抓取站点来生成知识库不？

暂无评论

jianqi 2025-03-13

nomic-embed-text 这个模型，对硬件要求高吗？不带显卡的x86服务器可以部署吗？

wzj177 2025-03-14
这种问题，要善于AI：
nomic-embed-text 模型对硬件要求较低，尤其适合资源有限的场景，不带独立显卡的x86服务器可以部署。以下是具体分析：

1. 硬件要求

内存需求：
根据对比表格信息，nomic-embed-text 的最低内存需求为 8GB，推荐配置为 16GB+，但实际部署中若仅用于文本向量化等轻量任务，8GB内存通常足够。

存储空间：
模型体积较小，仅需 274MB 存储空间，适合磁盘资源有限的服务器。

GPU支持：
虽然该模型支持GPU加速（如NVIDIA显卡可提升推理速度），但非强制要求。Ollama等部署工具会自动检测资源，若无GPU则默认使用CPU运行，仅需确保CPU性能足够（如Intel Core i5或AMD Ryzen 5及以上）。

2. 无显卡服务器部署可行性

纯CPU环境适用性：
多篇教程提到，nomic-embed-text 可通过Ollama在仅CPU的x86服务器上运行，例如在Windows 10或Linux系统中，通过命令行直接拉取并启动模型，无需独立显卡支持。

性能表现：
在无GPU情况下，模型推理速度可能较慢，但对于文本嵌入（如文档向量化、相似性匹配等场景）仍可满足基本需求。实际测试中，普通CPU（如i7-12700）处理中小规模文本任务响应时间可接受。

3. 部署建议

环境配置：
使用Ollama管理模型时，建议通过环境变量设置模型存储路径（如OLLAMA_MODELS），避免占用系统盘空间。

优化策略：
若需提升性能，可通过调整文本分块大小（chunk size）减少单次处理数据量，或结合轻量级向量数据库（如LanceDB）降低资源消耗。

总结

nomic-embed-text 是一款轻量级嵌入模型，对硬件要求较低，无显卡的x86服务器完全能够部署。其优势在于低资源占用和灵活的部署方式，适合个人开发者或中小团队构建本地知识库、RAG（检索增强生成）系统等应用场景。若需处理大规模数据或追求更高性能，可考虑升级CPU或引入GPU加速。