上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 37 下一页
摘要: 信息论,主要用于量化信息。 事件发生的概率越大,包含的信息就越少。例如“太阳从东边升起”,信息量就很少。 1、自信息(self-information) 两个独立事件发生所包含的信息,等于各自发生包含的信息之和。 2、熵(entropy) 信息量的期望。 3、KL散度 也叫相对熵(relative 阅读全文
posted @ 2019-03-15 10:30 happyyoung 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 概率论 不确定性 量化 频率 频率派 贝叶斯派 1、随机变量(random variable) 随机取不同值的变量,取值可以离散或者连续。 2、概率分布(probability distribution) 描述随机变量每个取值的可能性大小。 离散:概率质量函数(probability mass fu 阅读全文
posted @ 2019-03-14 20:13 happyyoung 阅读(413) 评论(0) 推荐(0) 编辑
摘要: BERT模型 阅读全文
posted @ 2019-03-14 16:02 happyyoung 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 均方误差 阅读全文
posted @ 2019-03-14 14:03 happyyoung 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归 参考链接 https://zhuanlan.zhihu.com/p/44591359 阅读全文
posted @ 2019-03-14 11:30 happyyoung 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 线性回归(Linear Regression),顾名思义,输出是输入的线性函数。因为通常会附加偏置(bias)参数,所以实际是仿射函数。 参考链接: http://cs229.stanford.edu/notes/cs229-notes1.pdf 阅读全文
posted @ 2019-03-13 11:45 happyyoung 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 蒙特卡罗算法,是一类随机算法,用于求近似解。 1、Las Vegas(拉斯维加斯)算法和蒙特卡罗算法 两者都是随机算法。 前者:要么正确解,要么错误解。采样越多,越有可能得到正确解。 后者:近似解。采样越多,越接近正确解。 2、无偏估计、大数定律、中心极限定理 没有系统误差,估计量的期望等于估计参数 阅读全文
posted @ 2019-03-11 10:12 happyyoung 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 动态规划 阅读全文
posted @ 2019-03-11 10:03 happyyoung 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 归一化(normalization) 阅读全文
posted @ 2019-03-11 09:45 happyyoung 阅读(234) 评论(0) 推荐(0) 编辑
摘要: Dropout 阅读全文
posted @ 2019-03-09 21:17 happyyoung 阅读(133) 评论(0) 推荐(0) 编辑
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 37 下一页