分享一个在 M2 Pro Mac mini 16G 内存机器上远程部署 AI 模型,用于 Chatbene 建站方案 的 AI 资讯内容筛选的应用。
搭建材料:
以上除硬件成本和消耗一点电电力,没其他服务服务费用。
两端安装 RustDesk,打开客户端完成权限设置,通过输入远程 ID 授权即可连接开整。
其他设置选项:
打开 GPT4ALl 初始化后下载 Mistral 7b 模型,程序设置中开启 API 访问,可以拖动 GPT4ALl 到系统设置开启启动,保证 API 可持续访问。
API 访问地址为: http://localhost:4891
,接口参数兼容 OpenAI API,简单测试命令:
curl http://localhost:4891/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "orca-mini-3b-gguf2-q4_0.gguf",
"stream": false,
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Say this is a test!"
}
]
}'
可以先通过 RustDesk 设置端口转发,在本地完成 API 接口测试。
Cloudflare 中添加域名,然后访问 Cloudflare ZeroTrust ,添加 Tunnel 打通外网访问。Cloudflare Tunnel 需要在远程电脑上安装 cloudflared 客户端,配置添加端口转发 http://localhost:4891 到自己的域名即可,如: ai.xxx.com
。
macOS 新机器可以直接下载 Cloudflared 可执行文件完成配置,Homebrew 依赖比较多安装有点繁琐。
测试完成后,在 Cloudflared ZeroTrust 后台添加 Application 并使用 Service Token 验证,以保护 API 接口安全。Service Token 验证十分简单,请求 API 时额外添加两个 Header 信息即可。
这是一个简单的小应用,通过发送文本给 LLM 检查判断,给出结果。
小模型经常出现幻觉结果不稳定,所以可以设置 3~5 次判断,平均一下取值。0~1 评分,0.5 以上可以采纳结果。初步测试效果挺好的。
完整快捷指令代码:
https://www.icloud.com/shortcuts/1ab7c65dcb74491a8c4b744a4f062fd1
以上方案,目前已经用于 Chatbene 建站方案 全自动完成 AI 资讯内容筛选,每天处理一百多次内容分类。