首页
资讯
快讯
论坛
文献
关于
登录
注册
投稿
扫码查看手机版
程序园首页
专栏
黑帽学院
精培
企业培训
训练营
技术社区
WOT技术大会
投稿
HOT
公众号矩阵
移动端
登录
/注册
首页
网络安全
人工智能
区块链
资讯
学院
黑帽SEO技术培训
广播
专栏
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
热搜
程序源码
软件工具
代码教程
网络安全
人工智能
区块链
资讯
本版
文章
帖子
用户
好友
收藏
道具
勋章
相册
分享
设置
我的收藏
退出
程序园
»
学院
›
原创专区
›
投稿
›
零成本养虾!谷歌 Gemma 4「本地部署」保姆级教程 ...
返回列表
零成本养虾!谷歌 Gemma 4「本地部署」保姆级教程
[复制链接]
作者:
admin
|
时间:
昨天 03:10
|
阅读:11
|
显示全部楼层
马上注册,让你轻松玩转程序园
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
昨天聊了 Gemma 4,今天教你把它装进本地电脑里。
养龙虾终于不用花钱了。
谷歌最新的开源模型 Gemma 4,原生支持 function calling。装在你自己的电脑上,接入 OpenClaw,token 成本直接归零。
划重点,Gemma 4 是 Gemma 家族第一次用 Apache 2.0 协议开源。商用、魔改、二次分发,都没问题。再加上 Ollama 最近更新了大版本。Apple Silicon 上直接用苹果自家的 MLX 框架推理,速度翻倍。
三步搞定。Mac、Windows、Linux 都可以。
先看看你的电脑有多少内存。
Gemma 4 一共四个版本,下面都以 4-bit 量化为例。
最小的 E2B,23 亿参数,4-bit 量化后约 4 GB 内存。支持图片、音频输入,128K 上下文。手机和树莓派都能跑。
E4B,45 亿参数,约 5.5 GB。同样支持图片和音频,128K 上下文。适合日常聊天。
26B 是混合专家架构(MoE),总参数 252 亿,每次推理只激活 38 亿。4-bit 量化后占 16-18 GB 内存。256K 上下文,支持图片,不支持音频。速度接近小模型,质量接近满血版,性价比最高。24 GB 内存的 Mac 或 24 GB 显存的显卡就能带得动。
满血版 31B,307 亿参数全激活。17-20 GB 内存。256K 上下文。Arena AI 开源排行榜第三,AIME 2026 数学推理 89.2%,编程 LiveCodeBench 80.0%。跑分最猛,24 GB 能跑但比较紧,32 GB 更舒服。
一句话总结,「4 GB 跑 E2B,6 GB 跑 E4B,18 GB 跑 26B,20 GB 以上跑 31B。」
Mac 用户,先去 ollama.com 下载、安装 Ollama。用 Homebrew 也行。
brew install --cask ollama-app Ollama 是目前跑本地模型最简单的工具(之一)。模型下载、推理引擎、API 服务,一个 App 就搞定。
装好后启动 Ollama。打开终端,运行:
open -a Ollama 菜单栏会出现一个羊驼图标,等几秒钟初始化完成。根据你的内存选一个模型拉取。以 26B 为例。
ollama run gemma4:26b
Ollama 会自动下载模型并启动对话。26B 大约 18 GB,耐心等。
下载完成后直接进入聊天界面。随便问一句,看到回答就成功了。
可以用下面这个命令查看模型运行状态。
ollama ps 你会看到 CPU/GPU 的推理分配比例,比如「14%/86% CPU/GPU」。以 Apple Silicon 为例,大部分计算跑在 GPU 上,速度比纯 CPU 快得多。
三步,搞定。
Windows 用户同理,先下载安装 Ollama。可以直接用客户端,也可以打开 PowerShell,一行命令搞定。
irm
https://ollama.com/install.ps1
| iex
装完后打开一个新的 PowerShell 窗口,运行:
ollama run gemma4:26b 有 NVIDIA 显卡的话,Ollama 会自动调用 CUDA 加速。没独显也能跑,就是慢一些。
后面是一样的流程。
NVIDIA 用户划重点。Ollama 0.19 新增了 NVFP4 格式支持,用更少的显存跑模型,精度损失很小。RTX 40 系及以上的显卡自动生效。
如果你已经养了一只龙虾,不管是在自己电脑上还是云服务器上,上面这些命令完全不用自己敲。直接给龙虾发消息,它会帮你搞定。
以一台云服务器上的 OpenClaw 为例。全程不碰终端。
先对龙虾说,「在服务器上安装 Ollama。运行这条命令:curl -fsSL
https://ollama.com/install.sh
| sh」。
龙虾先是发现缺少 zstd 依赖,自己装好之后重新运行安装脚本。
接着拉取模型。
17 GB 的模型文件,校验通过。
然后让它测试。「跟 Gemma 4 聊一句试试:ollama run gemma4:26b "你好,你是什么模型?简单介绍一下自己。"」
Gemma 4 跑起来了。
但纯 CPU 推理,26B 属实有点勉强。
让龙虾换成 E4B。
速度快多了。
理论上还能更进一步。
让龙虾把自己的模型后端切到本地 Gemma 4,API 端点指向 localhost:11434,从此不再需要云端 API。但更推荐满血版作为主力模型,小模型更适合端侧。
龙虾帮你部署了一个免费模型,最后还能把自己也接上去。
最后附上 Ollama 常用命令。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
返回列表
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
浏览过的版块
问答库
admin
关注Ta
主题 34
帖子 33
积分 92
程序园内容主编
•
电脑进入bios关闭网卡的技巧
•
强制git pull覆盖本地文件的方法
•
招聘中 产品经理 12-24K
•
高德无网导航全面升级
•
屏蔽与跳转代码:黑帽SEO中最危险的“魔术手法”
•
谷歌展示量子计算10分钟攻破比特币底层加密
•
网站排名优化的原理是什么
•
Claude仅用4小时血洗全球最安全系统 人类最后防线失守
阅读作者更多精彩帖子