此前对于rl的这两个概念一直很模糊,在此整理一下。
-
AIGB:用扩散模型颠覆传统自动出价范式
这是阿里巴巴在广告自动出价的一篇工作,用扩散模型颠覆了传统深度rl出价的范式,取得了线上线下的巨大收益。
-
MFU
MFU(Model FLOPs Utilization,模型浮点运算利用率) 是衡量深度神经网络(DNN)在训练或推理过程中硬件计算效率的关键指标。它回答了一个核心问题:
“我们的 GPU/TPU 算力,到底有多少真正用在了模型计算上?”
-
毫米波雷达&激光雷达
在自动驾驶和智能感知领域,毫米波雷达和激光雷达都是不可或缺的组件。
-
EOM公式推导
在uplift建模中,除了AUUC、QINI指标,还有EOM。它是基于离线RCT模拟评估在线业务收益的指标,EOM越高,业务收益越高。
-
图像生成评估指标IS&FID
IS(Inception Score) 和 FID(Fréchet Inception Distance) 是评估生成模型(特别是GAN、Diffusion等)最常见的两个指标
-
ε-greedy策略
ε-greedy(Epsilon-Greedy) 是强化学习中最重要、最基础的概念之一,它完美地解决了探索(Exploration) 与利用(Exploitation) 之间的权衡问题。
-
Q-Learning中的Q值和奖励R
为什么不用奖励R作为当前Q值,这里解释一下。
-
馈电油耗
馈电油耗 一般出现在 插电混合动力汽车(PHEV) 或 混合动力汽车(HEV) 的指标描述里。
-
股市指数点位计算逻辑
以沪深300指数点位的计算方式为例: