| 概念 原理 比喻 |
| 超参数影响力不同 | 有些超参数(如学习率)调一点点都会大变动;有些(如隐藏层宽度)调一格几乎没影响。 | 有的材料一撒就是辣死人的辣椒粉;有的材料像白开水,加多少都一样。 |
| 方格调参(Grid Search) | 在每个超参数范围里选固定数量(如 5 个)点,组合测试。方法科学但成本爆炸。 | 在地图上每隔 10 公里挖一口井,保证覆盖但挖到破产。 |
| 随机调参(Random Search) | 随机取点,不强行覆盖每个刻度,效率更高。粗略扫一遍,再缩小区域精细搜索。 | 先随机撒网找鱼群,再把网往鱼多的地方缩小围捕。 |
| 均匀取值(线性轴) | 对隐藏层数、训练轮数这种“单位变化影响差不多”的参数,用等间隔取点更合理。 | 车子每提高 5 km/h,感觉差不多,不会突然飞起来。 |
| 为何不能对所有参数用均匀取值 | 某些超参数(如 Momentum 的 β)在不同区间敏感度差异巨大,线性均匀取值会浪费采样。 | 有些区域像沼泽,一脚下去变化巨大;有些区域像柏油路,十步都一样。 |
| 对数取值(log-scale) | 若参数变化影响是“倍数级”的(如学习率、1−β),应把其取 log,使“倍数变化”变线性,再均匀取点。 | 把原本挤在一起的小数拉长,就像把揉成团的面皮擀开再切。 |
| 调参流派:熊猫派与鱼派 | 熊猫派:资源少,一次只能调一个模型。鱼派:资源多,一次几十个模型同时调。 | 熊猫每胎只有一个;鱼一次生几十个,把失败的交给自然选择。 |