如果你一直在关注 Ollama,肯定知道它最吸引人的地方就是能把大模型拉下来在本地跑,保护数据隐私。但这里有个“痛”——咱普通人的电脑,显存也就8G、12G、16G,跑个7B、14B的模型还行,想在本地架千亿参数的满血版 Qwen3.5 或者 DeepSeek-V3?是没有可能的。
不过,就在最近发现,Ollama 在新版本里放了个大招,直接打破了硬件的“阶级固化”。今天这篇文档,就是带你看看这个功能怎么玩,以及它到底适合什么场景。

一、这到底是什么神奇功能?
这个功能官方叫 Cloud Models(云模型)。
是一种无需强大的 GPU 即可运行新型模型,可以自动将请求转移的已经架好的云端,同时提供与本地模型相同的功能,使用户能够使用本地工具运行在个人电脑无法容纳的大型模型。
简单说,就是 Ollama 不再满足于只当你电脑里的“本地管家”,它现在帮你把“脑子”(模型计算)放在了云端的强大显卡上。
以前: 你命令行敲个 `ollama run qwen2.5`,模型要加载本地电脑上,使用本地显卡上的GPU和显存,代码在你电脑上跑,用的是你自己的显卡。
现在: 你敲个 `ollama run qwen3-coder:480b-cloud`,这个480B的模型放在云端,本地值占用很少的资源,你依然可以用本地那一套熟悉的工具链去调用它。
对于咱这种“无卡一族”来说,这相当于直接在配置普通的电脑上,获得了数据中心级的算力支持。
二、准备工作:升级、注册与登录
想尝鲜,得先做点准备工作,不过步骤很简单。
1. 下载最新版本
首先,云模型需要有新的 Ollama 版本支持。如果你很久没更新了,建议直接去官网下一个新的。
官网地址: https://ollama.com/
下载地址: https://ollama.com/download
下载对应你操作系统的版本安装即可
2. 注册与登录(关键一步!)
因为计算资源跑在云端,所以 Ollama 需要知道你是谁,所以需要注册一个 ollama.com 的账号。如果原来有直接用就好。
装好新版本后,打开终端使用命令(CMD 或 Terminal),输入以下命令登录:
ollama signin
会跳出注册页面,很简单,只要填上邮箱地址、密码,通过真人验证后,收到一封邮件,把邮件的6位数填到注册页面上,完成注册。
还有人可能留的手机号,就是通过手机接收验证码,然后填到注册页上,完成注册。
注册完成登录即可。
如果想退出账号,可以使用 `ollama signout` 命令 。
三、启动与使用:还是熟悉的配方
这是最爽的地方——用云模型,操作跟本地的一模一样。
- 运行模型
登录成功后,直接使用 `ollama run` 命令,但记得带上模型后面的-cloud后缀。
比如你想跑 Qwen3 的超级编码版本:
ollama run qwen3-coder:480b-cloud
或者试试最近更新的 DeepSeek-V3.1:
ollama run deepseek-v3.1:671b-cloud
第一次运行的时候还会给一个链接,复制后在浏览器里打开,这个应该是对这个本地设备做一个授权。
然后就能看到那个熟悉的 `>>>` 提示符,这时候你就可以开始对话了 。
2. 验证是否成功
怎么确认自己用的是“云”而不是“本地”?
看命名: 模型名带 `-cloud` 后缀,这跑的就是云端版。
看显存: 打开你的任务管理器(Windows)或者活动监视器(macOS),你会发现显存占用几乎没有变化——因为计算和显存都在云端,本地只负责收发文本。
看回答: 随便问一个复杂问题(比如“解释一下狄利克雷函数”),如果回答得又快又好,甚至引用了最新知识,那基本就稳了。
3. 用 Open WebUI 访问
(这部分详细内容找机会另写一篇)
如果不喜欢敲命令行,Open WebUI 是最好的搭档。它会自动识别你本地 Ollama 服务中的所有模型——包括带 `-cloud` 后缀的云端模型。
前提条件
– 已安装并运行 Open WebUI,也可以使用命令手工安装。
– 已通过命令行 `ollama run xxx-cloud` 至少运行过一次云端模型(确保模型已加载)
– Open WebUI 和 Ollama 运行在同一台机器上,也可以局域网通过IP地址访问。
操作步骤:
- 确保 Open WebUI 能连接到 Ollama
Open WebUI 使用 `http://localhost:11434` 可以查看连接状态。
- 在模型列表中查找云端模型
Open WebUI 使用 `http://localhost:8080` 登录界面完成用户登录
回到聊天界面,点击左上角的模型选择下拉菜单,找到带 `-cloud` 后缀的模型(如 `qwen3-coder:480b-cloud`)并选中。
小提示:如果列表中没有出现云端模型,可以尝试刷新列表或重新运行一次 `ollama run` 命令。
四、关于额度:听说有“冷却时间”?
冷却时间:在游戏里,大招放完后需要等一会儿才能再次使用,这个等待时间就叫“冷却时间”。用在这里就是:一段时间的额度用完后,需要等一段时间才能恢复,就像技能在转圈冷却一样。如果你不玩游戏,直接理解成“额度刷新周期”或者“冷却时间”就行。
竟是用别人的服务器,肯定不是“毫无限制”。目前官方没有特别明确的硬性额度文档,但根据社区反馈和一些界面提示,可以大概有个数:
![图片[2]-Ollama 也上云了,普通电脑玩转千亿大模型的“限量版”试吃-若是我](http://www.ifisme.cn/wp-content/uploads/2026/03/ollama使用量1.png)
![图片[3]-Ollama 也上云了,普通电脑玩转千亿大模型的“限量版”试吃-若是我](http://www.ifisme.cn/wp-content/uploads/2026/03/ollama使用量3.png)
这里为做测试,消耗了大概1.46万token,然后看到4小时额度使用3%,周额度使用1.2%,所以大概估算4小时额度在48万左右token,周额度在120万token
4小时额度猜测:大概每 4小时 会刷新一次。也就是说4小时额度用完,就必须停下,等过几个小时才能再用了。
周额度猜测:大概率是每周一早上8点重置一次周额度总量。如果超过一周的总额度,就需要等到周一重置后才能再用。
温馨提示:以上额度信息是根据预览版体验的推测,具体还是要以官方 `ollama.com/pricing` 或账户中心的说明为准 。
五、特别注意:这跟本地模型还是有些区别
最后想啰嗦几句,数据去哪了?
咱们当初选用本地模型,很大一部分原因是为了防止数据传到网上。所以,在使用这个云模型功能时,有几个认知需要注意:
- 数据不是完全私密的:虽然 Ollama 官方说 “Ollama’s cloud does not retain your data to ensure privacy and security”(云端不保留数据以确保隐私安全),但“不保留”不等于“不经过”。你的提问和上下文,在推理过程中必然会被发送到云端服务器。
- 适用场景变了:如果你在写公司的核心商业代码,或者处理患者的敏感医疗记录,建议还是老老实实跑本地小模型(比如 Qwen2.5:7B)。千万别把隐私数据发给云端模型!
- 它存在的意义:这个云端功能的初衷,主要是为了解决“显存不够”和“token 不够用”的问题 。比如:
– 你想测试 480B 模型的逻辑推理上限。
– 你想写个长篇小说,需要极大的上下文(云端模型通常给满血上下文)。
– 你临时需要高并发,但本地电脑扛不住。
这时候,用一下云端额度,查查资料、写写代码,还是挺香的。
六、还有哪些云端模型可以试吃?
除了前面提到的 Qwen3-Coder 和 DeepSeek,Ollama 的云端模型库里还有不少“硬菜”可以尝鲜。目前官方支持(或社区反馈可用)的云端模型包括:
– qwen3-coder:480b-cloud(你试过的编码大模型)
– qwen3-coder-next:cloud(可能是 Coder 的迭代版本)
– qwen3.5:397b-cloud(Qwen3.5 系列的超大杯)
– qwen3.5:cloud(Qwen3.5 的云端版本)
– deepseek-v3.1:671b-cloud(DeepSeek 的混合推理模型,支持思考模式)
– deepseek-v3.2:cloud(更新的版本,具体参数未明确)
– gpt-oss:120b-cloud 和 gpt-oss:20b-cloud(OpenAI 兼容的开放模型)
– kimi-k2:1t-cloud(Kimi 的 1T 参数 MoE 模型)
– glm-4.6:cloud(智谱的云端模型)
用法都一样,直接在终端里敲:
ollama run 模型名字:版本-cloud
比如你想试试 Qwen3.5 的 397B 版本:
ollama run qwen3.5:397b-cloud
> 小提示:模型列表会持续更新,最新的完整列表建议去ollama.com/models 瞅瞅 。看个人喜好,想试哪个就试哪个,反正都是“限量版试吃”~
结语:
Ollama 这次更新,相当于给你发了一张“限量版试吃券”——本地模型是“私房钱”,藏着掖着图个安心;云端模型是“限量版试吃”,让你有限次地尝鲜那些自己买不起的“硬菜”。搞清楚自己要啥,切换着用,才是真的生产力!


























暂无评论内容