找回密码
 立即注册
办理程序园永久VIP会员500$ USDT,请勿使用程序园{ 程序/软件/技术}用于违法用途,商务合作请联系TG:lplp519 邮箱:102@cxy5.com
微调显存总爆炸?问题往往不在你以为的地方
0
368
28
坐褐
评估,才是微调里最反直觉的部分
训练跑通了,并不意味着你“完成了微调” 如果你已经做过几次大模型微调,很可能会有一种奇怪的感觉。 训练这件事,其实没那么难。 数据准备好,参数配一配,模 ...
0
265
11
撇瞥
钉钉A1与飞书AI录音豆
钉钉A1与飞书AI录音豆的全面对比分析表。从整体定位来看,两款产品分别深度绑定各自办公生态,面向职场会议场景,但在设计理念和功能侧重上有明显差异:核心差异 ...
0
668
17
寇秀娟
为什么 loss 几乎没用:微调里最容易让人“自嗨”的指标
loss 是怎么一步步“骗”过工程师的 如果你做过大模型微调,几乎一定经历过这样一个时刻。 训练刚跑起来,你盯着屏幕上的 loss 曲线,看着它从一个比较高的值, ...
0
1086
12
羊舌正清
Vibe Coding 小记 —— Google AI Studio
0
33
10
卿搞笔
从零开始:PPO 微调大模型实战(基于 PyTorch)
从零开始:PPO 微调大模型实战(基于 PyTorch) PPO 真正难的,不是算法本身 如果你已经看过一些 PPO 的原理文章,大概率会有过这种感觉: 好像每个字都认识,但 ...
0
35
6
凳舒
客服大模型 ≠ 问答机器人
为什么很多客服大模型,看起来很聪明,却一点也不好用 如果你做过客服相关的项目,大概率会经历一个非常相似的过程。 一开始,大家都很兴奋。 把历史客服文档、F ...
0
25
11
硫辨姥
客服大模型 ≠ 问答机器人
为什么很多客服大模型,看起来很聪明,却一点也不好用 如果你做过客服相关的项目,大概率会经历一个非常相似的过程。 一开始,大家都很兴奋。 把历史客服文档、F ...
0
27
11
邹语彤
你以为 PPO 很高级,其实它更像个“微调旋钮”
为什么 PPO 在真实业务里越来越重要 如果你是从论文或者课程里接触 PPO 的,那大概率会有一种“这东西看起来很厉害”的感觉。策略梯度、clip、KL 约束、reward m ...
0
880
13
幽淆
向量数据库技术内核:从存储到检索,拆解其高效运作的秘密
0
265
21
蛟当罟
10 万文档 RAG 落地实战:从 Demo 到生产,我踩过的所有坑
10 万文档 RAG 落地实战:从 Demo 到生产,我踩过的所有坑 引言:RAG 为什么在企业级场景“必选但难用” 在过去一年里,RAG(Retrieval-Augmented Generation) ...
0
514
10
恶凝毛
大模型微调评测入门:看懂这些指标,才知道模型好不好
大模型微调评测入门:看懂这些指标,才知道模型好不好 从“瞎评”到“精准评”:大模型微调核心评测指标全拆解 大家好,我是七七!最近后台收到很多粉丝的共性 ...
0
675
18
红弘丽
民用卡 vs 专业卡 vs 云 GPU:大模型微调该选哪种?
民用卡 vs 专业卡 vs 云 GPU:大模型微调该选哪种? 大模型微调 GPU 选型无优劣,核心是场景与成本的精准适配 大家好,我是七七!最近后台收到的GPU选型问题快 ...
0
26
5
颖顿庐
大模型成本刺客退散!1/3算力跑出同等效果的秘诀
0
150
18
利怡悦