huiwong - 博客园

2019年4月2日

摘要：命令行风格 pytorch官方给的用LeNet训练MNIST例子，适合命令行下操作。交互式的阅读全文

posted @ 2019-04-02 17:45 huiwong 阅读(1778) 评论(0) 推荐(0) 编辑

摘要： argparse 模块可以轻松编写用户友好的命令行接口。程序定义它需要的参数，然后 argparse 将弄清如何从 sys.argv 解析出那些参数。 argparse 模块还会自动生成帮助和使用手册，并在用户给程序传入无效参数时报出错误信息。 argparse简单使用流程主要有三个步骤：创建阅读全文

posted @ 2019-04-02 17:03 huiwong 阅读(26550) 评论(0) 推荐(1) 编辑

2019年3月30日

记录一下概念(信息论中）

摘要：记录一些常见的概念。 (香侬)熵 Information entropy is the average rate at which information is produced by a stochastic source of data. $$H[x]= \sum_{x} p(x) \log _ 阅读全文

posted @ 2019-03-30 17:13 huiwong 阅读(262) 评论(0) 推荐(0) 编辑

2019年3月20日

论文阅读计划(至2019年至5月）

摘要：整理一下要读的已读的书籍论文，加粗为还没有读的神经网络通用理论优化方法，正则化，训练技巧等 Understanding the difficulty of training deep feedforward neural networks (AISTATS 2010) Dropout: A Si 阅读全文

posted @ 2019-03-20 10:16 huiwong 阅读(1031) 评论(0) 推荐(0) 编辑

2019年3月19日

高斯分布

摘要：一维正态分布常用英文： univariate Gaussian , normal distribution , Gaussian distribution 等定义如果一个随机变量的概率密度函数为： $$ {\displaystyle f(x;\mu, \sigma ^ 2)={1 \over 阅读全文

posted @ 2019-03-19 15:30 huiwong 阅读(599) 评论(0) 推荐(0) 编辑

2019年3月15日

Word2vec

摘要： one hot表示主要问题无法准确表达不同词之间的相似度，没有任何语义信息以下内容主要摘抄自来斯惟的博士论文 "基于神经网络的词和文档语义向量表示方法研究" "CS224n的notes" [Yoav Goldberg的word2vec Explained: Deriving Mikolov 阅读全文

posted @ 2019-03-15 15:49 huiwong 阅读(539) 评论(0) 推荐(0) 编辑

2019年3月14日

常见损失函数记录

摘要：常见损失函数记录，主要是自己记一下公式，没啥讲解均方误差，绝对值损失，0 1损失最简单的几种，没啥好说的 $$ L(Y, f(X))=(Y f(X))^{2} \\ L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & 阅读全文

posted @ 2019-03-14 14:45 huiwong 阅读(334) 评论(0) 推荐(0) 编辑

阅读书单

摘要：做个记录，好找资料和阅读。通用机器学习与深度学习基础 1. The Elements of Statistical Learning(ESL)， "网络资源" ， "豆瓣" 2. Pattern Recognition and Machine Learning(PRML)， "网络资源" ， "豆阅读全文

posted @ 2019-03-14 09:33 huiwong 阅读(149) 评论(0) 推荐(0) 编辑

2019年3月12日

RNN模型简介

摘要：主要是个人备忘录，很不完整和规范。基本都省略了偏置。简单RNN 数学公式 $$ h_{t}=g(W^{(h)}h_{t 1}+W^{(x)}x_t) \\ y_{t}=f(Vh_t) $$ 简单解释就是，对于每个位置，输入保存的上一个状态 $h_{t 1}$和输入$x_t$，然后输出新的状态$h 阅读全文

posted @ 2019-03-12 19:31 huiwong 阅读(2108) 评论(0) 推荐(0) 编辑

2019年3月7日

语言模型

摘要：语言模型（language model）是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为$T$的文本中的词依次为 $w_1, w_2, \ldots, w_T$。定义对于一段自然语言序列，语言模型就是计算他的概率：阅读全文

posted @ 2019-03-07 09:44 huiwong 阅读(802) 评论(0) 推荐(0) 编辑

Ric's Blog

韬光养晦，以下克上

公告