AI量化知识树

Word2Vec介绍:推导代价函数对权重的梯度

由iquant创建,最终由qxiao 被浏览 9 用户

目录

  1. 我们的目标是什么?
  2. 需要用到的表达式和公式
  3. 手把手带你计算梯度
  4. 意义是什么?

我们的目标是什么?

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='1280' height='960'></svg>)

需要用到的表达式和公式

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='1132' height='1280'></svg>)

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='3125' height='1476'></svg>)

开始推导

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='954' height='1280'></svg>)

这里为什么 frac {partial J(theta)}{partial (theta)} = hat y - y ,下面是推导过程:

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='1280' height='1174'></svg>)

![](data:image/svg+xml;utf8,<svg%20xmlns='http://www.w3.org/2000/svg' width='1332' height='3256'></svg>)

意义是什么?

为什么要推导 frac{partial J}{partial v_c} ?

因为这里的意义是,代价J对目标向量 v_c 求导,得到的导数就是使J最小的“方向”和“大小”。那么通过朝着这个“方向”和“大小”优化 v_c 就可以得到使J最小的 v_c

{link}