Ollama 也上云了，普通电脑玩转千亿大模型的“限量版”试吃-若是我

如果你一直在关注 Ollama，肯定知道它最吸引人的地方就是能把大模型拉下来在本地跑，保护数据隐私。但这里有个“痛”——咱普通人的电脑，显存也就8G、12G、16G，跑个7B、14B的模型还行，想在本地架千亿参数的满血版 Qwen3.5 或者 DeepSeek-V3？是没有可能的。

不过，就在最近发现，Ollama 在新版本里放了个大招，直接打破了硬件的“阶级固化”。今天这篇文档，就是带你看看这个功能怎么玩，以及它到底适合什么场景。

云上的ollama

一、这到底是什么神奇功能？

这个功能官方叫 Cloud Models（云模型）。

是一种无需强大的 GPU 即可运行新型模型，可以自动将请求转移的已经架好的云端，同时提供与本地模型相同的功能，使用户能够使用本地工具运行在个人电脑无法容纳的大型模型。

简单说，就是 Ollama 不再满足于只当你电脑里的“本地管家”，它现在帮你把“脑子”（模型计算）放在了云端的强大显卡上。

以前： 你命令行敲个 `ollama run qwen2.5`，模型要加载本地电脑上，使用本地显卡上的GPU和显存，代码在你电脑上跑，用的是你自己的显卡。

现在： 你敲个 `ollama run qwen3-coder:480b-cloud`，这个480B的模型放在云端，本地值占用很少的资源，你依然可以用本地那一套熟悉的工具链去调用它。

对于咱这种“无卡一族”来说，这相当于直接在配置普通的电脑上，获得了数据中心级的算力支持。

二、准备工作：升级、注册与登录

想尝鲜，得先做点准备工作，不过步骤很简单。

1. 下载最新版本

首先，云模型需要有新的 Ollama 版本支持。如果你很久没更新了，建议直接去官网下一个新的。

官网地址： https://ollama.com/

下载地址： https://ollama.com/download

下载对应你操作系统的版本安装即可

2. 注册与登录（关键一步！）

因为计算资源跑在云端，所以 Ollama 需要知道你是谁，所以需要注册一个 ollama.com 的账号。如果原来有直接用就好。

装好新版本后，打开终端使用命令（CMD 或 Terminal），输入以下命令登录：

ollama signin

会跳出注册页面，很简单，只要填上邮箱地址、密码，通过真人验证后，收到一封邮件，把邮件的6位数填到注册页面上，完成注册。
还有人可能留的手机号，就是通过手机接收验证码，然后填到注册页上，完成注册。

注册完成登录即可。

如果想退出账号，可以使用 `ollama signout` 命令。

三、启动与使用：还是熟悉的配方

这是最爽的地方——用云模型，操作跟本地的一模一样。

运行模型

登录成功后，直接使用 `ollama run` 命令，但记得带上模型后面的-cloud后缀。

比如你想跑 Qwen3 的超级编码版本：

ollama run qwen3-coder:480b-cloud

或者试试最近更新的 DeepSeek-V3.1：

ollama run deepseek-v3.1:671b-cloud

第一次运行的时候还会给一个链接，复制后在浏览器里打开，这个应该是对这个本地设备做一个授权。

然后就能看到那个熟悉的 `>>>` 提示符，这时候你就可以开始对话了。

2. 验证是否成功

怎么确认自己用的是“云”而不是“本地”？

看命名： 模型名带 `-cloud` 后缀，这跑的就是云端版。

看显存： 打开你的任务管理器（Windows）或者活动监视器（macOS），你会发现显存占用几乎没有变化——因为计算和显存都在云端，本地只负责收发文本。

看回答： 随便问一个复杂问题（比如“解释一下狄利克雷函数”），如果回答得又快又好，甚至引用了最新知识，那基本就稳了。

3. 用 Open WebUI 访问

（这部分详细内容找机会另写一篇）

如果不喜欢敲命令行，Open WebUI 是最好的搭档。它会自动识别你本地 Ollama 服务中的所有模型——包括带 `-cloud` 后缀的云端模型。

前提条件

– 已安装并运行 Open WebUI，也可以使用命令手工安装。

– 已通过命令行 `ollama run xxx-cloud` 至少运行过一次云端模型（确保模型已加载）

– Open WebUI 和 Ollama 运行在同一台机器上，也可以局域网通过IP地址访问。

操作步骤：

确保 Open WebUI 能连接到 Ollama

Open WebUI 使用 `http://localhost:11434` 可以查看连接状态。

在模型列表中查找云端模型

Open WebUI 使用 `http://localhost:8080` 登录界面完成用户登录

回到聊天界面，点击左上角的模型选择下拉菜单，找到带 `-cloud` 后缀的模型（如 `qwen3-coder:480b-cloud`）并选中。

小提示：如果列表中没有出现云端模型，可以尝试刷新列表或重新运行一次 `ollama run` 命令。

四、关于额度：听说有“冷却时间”？

冷却时间：在游戏里，大招放完后需要等一会儿才能再次使用，这个等待时间就叫“冷却时间”。用在这里就是：一段时间的额度用完后，需要等一段时间才能恢复，就像技能在转圈冷却一样。如果你不玩游戏，直接理解成“额度刷新周期”或者“冷却时间”就行。

竟是用别人的服务器，肯定不是“毫无限制”。目前官方没有特别明确的硬性额度文档，但根据社区反馈和一些界面提示，可以大概有个数：

这里为做测试，消耗了大概1.46万token，然后看到4小时额度使用3%，周额度使用1.2%，所以大概估算4小时额度在48万左右token，周额度在120万token

4小时额度猜测：大概每 4小时会刷新一次。也就是说4小时额度用完，就必须停下，等过几个小时才能再用了。

周额度猜测：大概率是每周一早上8点重置一次周额度总量。如果超过一周的总额度，就需要等到周一重置后才能再用。

温馨提示：以上额度信息是根据预览版体验的推测，具体还是要以官方 `ollama.com/pricing` 或账户中心的说明为准。

五、特别注意：这跟本地模型还是有些区别

最后想啰嗦几句，数据去哪了？

咱们当初选用本地模型，很大一部分原因是为了防止数据传到网上。所以，在使用这个云模型功能时，有几个认知需要注意：

数据不是完全私密的：虽然 Ollama 官方说 “Ollama’s cloud does not retain your data to ensure privacy and security”（云端不保留数据以确保隐私安全），但“不保留”不等于“不经过”。你的提问和上下文，在推理过程中必然会被发送到云端服务器。
适用场景变了：如果你在写公司的核心商业代码，或者处理患者的敏感医疗记录，建议还是老老实实跑本地小模型（比如 Qwen2.5:7B）。千万别把隐私数据发给云端模型！
它存在的意义：这个云端功能的初衷，主要是为了解决“显存不够”和“token 不够用”的问题 。比如：

– 你想测试 480B 模型的逻辑推理上限。

– 你想写个长篇小说，需要极大的上下文（云端模型通常给满血上下文）。

– 你临时需要高并发，但本地电脑扛不住。

这时候，用一下云端额度，查查资料、写写代码，还是挺香的。

六、还有哪些云端模型可以试吃？

除了前面提到的 Qwen3-Coder 和 DeepSeek，Ollama 的云端模型库里还有不少“硬菜”可以尝鲜。目前官方支持（或社区反馈可用）的云端模型包括：

– qwen3-coder:480b-cloud（你试过的编码大模型）

– qwen3-coder-next:cloud（可能是 Coder 的迭代版本）

– qwen3.5:397b-cloud（Qwen3.5 系列的超大杯）

– qwen3.5:cloud（Qwen3.5 的云端版本）

– deepseek-v3.1:671b-cloud（DeepSeek 的混合推理模型，支持思考模式）

– deepseek-v3.2:cloud（更新的版本，具体参数未明确）