原文:编译原理学习周入门教程 --(3)文法和语言 写在开始: 上篇我们介绍了编译 “工厂” 的流程,本篇介绍,工厂里的 “工具”。 开始教程: 语言和文法?语言我们知道,计算机语言,人类的语言,动物的语言,不同国家的语言,不同种族的语言等等。那神马是文法呢?所谓文法,文,文字,法,规则,法则,法律 Read More
posted @ 2018-04-19 18:17 dahu1 Views(7924) Comments(0) Diggs(0) Edit
记录一些遇到的常用的openfst的命令。help的信息我就不放了,可以自己看。 fstaddselfloops: 加一个自旋,一般是在初始节点上。别的节点没试过。。这句在生成L.fst的时候有遇到过。 将自回路添加到 FST 的状态以通过它传播消歧符号它们被添加到每个最终状态,每个状态都带有非 e Read More
posted @ 2018-04-19 17:17 dahu1 Views(3548) Comments(0) Diggs(0) Edit
求最长不重复子字符串 题目来源: https://leetcode.com/problems/longest-substring-without-repeating-characters/ Given "abcabcbb", the answer is "abc", which the length Read More
posted @ 2018-04-05 19:07 dahu1 Views(157) Comments(0) Diggs(0) Edit
转载: 语音识别系统结构——鸟瞰 语音识别概述 语音识别是指将语音信号转换为文字的过程。现在通行的语音识别系统框架如图:信号处理模块将根据人耳的听觉感知特点,抽取语音中最重要的特征,将语音信号转换为特征矢量序列。现行语音识别系统中常用的声学特征有线性预测编码(Linear Predictive Co Read More
posted @ 2018-03-26 17:34 dahu1 Views(2457) Comments(0) Diggs(0) Edit
xgboost 安装:xgboost:Scalable and Flexible Gradient Boosting github: eXtreme Gradient Boosting 中文教程:可伸缩且灵活的梯度提升 xgboost 用C++编写,提供了Python, R, Java, Scala Read More
posted @ 2018-03-08 15:22 dahu1 Views(1105) Comments(0) Diggs(0) Edit
id3 信息增益 c4.5 信息增益比 CART 基尼指数 参考 优缺点: 决策树算法原理 (上) 决策树算法原理 (下) 简略介绍: [Machine Learning & Algorithm] 决策树与迭代决策树(GBDT) 1.熵的概念 首先,我们需要熟悉信息论中熵的概念。熵度量了事物的不确定 Read More
posted @ 2018-03-07 17:24 dahu1 Views(205) Comments(3) Diggs(1) Edit
看到一个大牛的博客,非常好: 集成学习原理小结 这个人的博客里还有其他算法总结,跟着他一块学习。 算是RF GBDT前传 集成学习 (ensemble learning) 可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我 Read More
posted @ 2018-03-05 14:01 dahu1 Views(206) Comments(0) Diggs(0) Edit
转自: Linguistic Data Consortium (LDC) 因为Kaldi里面各种语料涉及到LDC,搜罗一下,好像并没有相应的教程和网站用法。。。。 搞 NLP 的人经常会听到一个神秘的名字 LDC,因为大量的论文所使用的数据都来自于 LDC,本文就来揭露其神秘面目。 About LD Read More
posted @ 2018-02-28 17:13 dahu1 Views(1841) Comments(1) Diggs(0) Edit
参考 kaldi 的全部资料_v0.4 cmd.sh 脚本为: 可以很清楚的看到有 3 个分类分别对应 a,b,c。a 和 b 都是集群上去运行这个样子, c 就是我们需要的。我们在虚拟机上运行的。你需要修改这个脚本 Path.sh 的内容: 在这里一般只要修改 export KALDI_ROOT= Read More
posted @ 2018-02-28 16:59 dahu1 Views(3729) Comments(0) Diggs(0) Edit
参考 交叉验证 交叉验证 (Cross Validation)刘建平 一、训练集 vs. 测试集 在模式识别(pattern recognition)与机器学习(machine learning)的相关研究中,经常会将数据集(dataset)分为训练集(training set)跟测试集(testi Read More
posted @ 2018-02-28 14:06 dahu1 Views(1166) Comments(0) Diggs(0) Edit
lstm,参考: Understanding LSTM Networks 零基础入门深度学习 (6) - 长短时记忆网络 (LSTM) 完整的: Read More
posted @ 2018-02-28 10:25 dahu1 Views(156) Comments(0) Diggs(0) Edit
自己写的一个例子: 可以监控各个集群的性能,当然他的功能远不止此,还有很多很强大的技能,原文: Python 远程部署利器 Fabric 详解 可以去原网址看,以下内容纯属备份,以防原文被删。 Python 远程部署利器 Fabric 详解 Fabric 是一个 Python 的库,它提供了丰富的同 Read More
posted @ 2018-02-26 20:14 dahu1 Views(290) Comments(0) Diggs(0) Edit
这里分享两个技巧 1.scrapy-redis分布式爬虫 我们知道scrapy-redis的工作原理,就是把原来scrapy自带的queue队列用redis数据库替换,队列都在redis数据库里面了,每次存,取,删,去重,都在redis数据库里进行,那我们如何使用分布式呢,假设机器A有redis数据 Read More
posted @ 2018-02-10 21:14 dahu1 Views(907) Comments(0) Diggs(0) Edit
假设一个分布是离散的。{x1,x2,x3....xn} 对应的概率{p1,p2,p3...pn} 可得 $$ \sum_{i=1}^{n}p_{i}=1 $$ Read More
posted @ 2018-02-01 14:56 dahu1 Views(7459) Comments(0) Diggs(2) Edit
用EM算法估计GMM模型参数 参考 西瓜书 再看下算法流程 Read More
posted @ 2018-01-26 20:08 dahu1 Views(913) Comments(0) Diggs(0) Edit
学习hmm近一周的时间,做个总结。 参考 李航的《统计学习方法》第9章,第10章 本文包含: 1.hmm模型 2.前向后向算法 3.Baum-Welch算法 4.维特比算法 1.hmm模型 Q:所有可能的状态的集合(一般是指隐藏状态),N是指可能的状态数 V:所有可能的观测的集合,M是可能的观测数 Read More
posted @ 2018-01-23 20:43 dahu1 Views(336) Comments(0) Diggs(0) Edit
参考 拉格朗日乘子法如何理解? 拉格朗日乘子法 基本的拉格朗日乘子法就是求函数 f(x1,x2,...) 在约束条件 g(x1,x2,...)=0 下的极值的方法。 其主要思想是将约束条件函数与原函数联立,从而求出使原函数取得极值的各个变量的解。 计算过程: 1. 假设需要求极值的目标函数 (obj Read More
posted @ 2018-01-22 21:35 dahu1 Views(403) Comments(0) Diggs(0) Edit
含有隐藏变量时,不好直接求极大似然,可以考虑用EM算法。 参考 (EM 算法)The EM Algorithm 从最大似然到 EM 算法浅解 1.Jensen 不等式 回顾优化理论中的一些概念。 设 f 是定义域为实数的函数,如果对于所有的实数 x,,那么 f 是凸函数。 当 x 是向量时,如果其 Read More
posted @ 2018-01-22 19:05 dahu1 Views(300) Comments(0) Diggs(0) Edit
参考 从最大似然到 EM 算法浅解 最大似然估计学习总结 EM 算法及其推广学习笔记 之前已经总结了似然的概念,那么顺其自然的理解就是,求得似然最大值的参数即为想要的参数,也就是参数估计,使用的方法为最大似然估计。 先提出几个问题: 1.最大似然估计求参数的一般流程是怎样的? 2.什么样的场景适合/ Read More
posted @ 2018-01-22 11:41 dahu1 Views(2709) Comments(0) Diggs(0) Edit
理解一下这些基础知识 先验概率(prior probability) 是指根据以往经验和分析得到的概率,如全概率公式,它往往作为 "由因求果" 问题中的 "因" 出现的概率。 在贝叶斯统计中,先验概率分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测。这 Read More
posted @ 2018-01-20 17:20 dahu1 Views(1074) Comments(0) Diggs(0) Edit
最近要更新一批基础概念,也是一种巩固复习。 参考 "似然函数 Likelihood function" 理论 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性” 与 “或然性” 或 “ Read More
posted @ 2018-01-19 16:32 dahu1 Views(836) Comments(0) Diggs(0) Edit
markdown 语法规则 参考 "Markdown——入门指南" 也可以参考这篇 "Markdown: Basics (快速入门)" 一级标题 二级标题 三级标题 列表 无序 1 2 3 有序 1. 1 2. 2 3. 3 需要空一格 这里是引用 ls lh 插入链接 "这里" 是我的博客园首页 Read More
posted @ 2018-01-19 14:14 dahu1 Views(187) Comments(0) Diggs(0) Edit
看了 bash101 ,做的一些总结吧,都是些常见用法,易错 1. 有空格会显示多行 2.contine 书里太细了,有空补起来 Read More
posted @ 2018-01-16 21:18 dahu1 Views(271) Comments(0) Diggs(0) Edit
只是略微的看了些,有点感觉,还未深入,做个记录。 参考: 隐马尔可夫 (HMM)、前 / 后向算法、Viterbi 算法 再次总结 谁能通俗的讲解下 viterbi 算法? 数学之美第二版的第 26 章 本文结构: 1.hmm三要素 2.维特比算法 3.简明例子 hmm三要素: 1.初始概率分布 π Read More
posted @ 2018-01-16 16:38 dahu1 Views(977) Comments(0) Diggs(0) Edit
以后要重点搞caldi了,虽然集群上有,但还是本地安装一下吧。 参考 Kaldi 学习手记(一):Kaldi 的编译安装 在 ubuntu 下安装 kaldi 基本步骤 两个文章基本差不多 1. 需要安装的软件包:gcc,automake,autoconf,subversion,libtool,li Read More
posted @ 2018-01-16 10:39 dahu1 Views(542) Comments(0) Diggs(0) Edit
原文 如何通俗的解释交叉熵与相对熵? 相关公式: 假设现在有一个样本集中两个概率分布 p,q,其中 p 为真实分布,q 为非真实分布。假如,按照真实分布 p 来衡量识别一个样本所需要的编码长度的期望为: H(p)= 信息熵 但是,如果采用错误的分布 q 来表示来自真实分布 p 的平均编码长度,则应该 Read More
posted @ 2018-01-15 17:36 dahu1 Views(719) Comments(0) Diggs(0) Edit
参考 常用激活函数比较 本文结构: 什么是激活函数 为什么要用 都有什么 sigmoid ,ReLU, softmax 的比较 如何选择 1. 什么是激活函数 如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function Read More
posted @ 2018-01-15 16:30 dahu1 Views(1266) Comments(0) Diggs(0) Edit
偶然的机会翻到这篇文章,很全面,来源: Python 资源大全中文版 哪些 Python 库让你相见恨晚? 环境管理 管理 Python 版本和环境的工具 p:非常简单的交互式 python 版本管理工具。官网 pyenv:简单的 Python 版本管理工具。官网 Vex:可以在虚拟环境中执行命令。 Read More
posted @ 2018-01-12 10:38 dahu1 Views(1739) Comments(0) Diggs(0) Edit
参考 linux 之 sort 用法 这篇文章其实主要记录以 tab分隔的情况 sort 命令是帮我们依据不同的数据类型进行排序,其语法及常用参数格式: sort [-bcfMnrtk][源文件][-o 输出文件] 补充说明:sort 可针对文本文件的内容,以行为单位来排序。 参 数: -b 忽略每 Read More
posted @ 2018-01-11 11:56 dahu1 Views(287) Comments(0) Diggs(0) Edit
不得不说,python还真是方便,要啥有啥 继微信,短信的自动发送之后,邮件也可以了,齐活了 主要参考: 企业263邮箱发送到qq邮箱 qq邮箱发送 ,这个注意一下,qq邮箱需要授权码的, 什么是授权码,它又是如何设置? 详细一点的,【Python 开发】python 发送各类邮件的方法 这里我就不 Read More
posted @ 2018-01-04 23:10 dahu1 Views(245) Comments(0) Diggs(0) Edit
首先分别介绍inotify 与 rsync的使用,然后用两者实现实时文件同步,最后说一下这样的系统存在什么样的问题。 1. inotify 这个具体使用网上很多,参考 inotify-tools 命令使用讲解 Inotify 内核版本支持 从 kernel 2.6.13 开始, Inotify 正式 Read More
posted @ 2018-01-04 11:53 dahu1 Views(879) Comments(0) Diggs(0) Edit
参考 Unix 或 Linux 中 &、jobs、fg、bg 等命令的使用方法 对之前文章的一个补充: linux 命令后台运行 这篇还是比较简单的,稍微一带而过 fg、bg、jobs、&、ctrl + z 都是跟系统任务有关的,虽然现在基本上不怎么需要用到这些命令,但学会了也是很实用的 一.& 最 Read More
posted @ 2018-01-04 11:13 dahu1 Views(1911) Comments(0) Diggs(0) Edit
shell编程里面一直没怎么使用函数,都是用命令,需要写到递归,用函数处理一下,顺带学习一下,做个记录。 参考 Linux&shell 之高级 Shell 脚本编程 - 创建函数 使用函数 (记得空格,函数一定要在使用之前定义,函数名必须唯一) 返回值可以通过 $? 来确定函数的退出状态 使用 re Read More
posted @ 2018-01-04 10:45 dahu1 Views(298) Comments(0) Diggs(0) Edit
中间件: 主要讨论的是下载中间件,明确一下顺序: download_middlewares --> server.url > spider_middleware 我主要是用来加header或者cookie,有的时候,用了scrapy-redis框架,直接往redis队列里塞网页,不同的domain有 Read More
posted @ 2017-12-25 16:03 dahu1 Views(1329) Comments(0) Diggs(0) Edit
行列式和矩阵的加法和乘法的比较 伴随矩阵的一些性质 以下是全部知识点总结 线性方程组的系数行列式为零时,不能用克拉默法则解方程组,因为此时方程组的解为无解或有无穷多个解。 克拉默法则解线性方程组的两个条件: 方程个数等于未知量个数 系数行列式不等于0 Read More
posted @ 2017-12-19 21:26 dahu1 Views(22596) Comments(1) Diggs(0) Edit
主要是pypinyin 包,官网: http://pypinyin.readthedocs.io/zh_CN/master/index.html jieba包,主要是用来分词的,我之前的博文有介绍:http://www.cnblogs.com/dahu-daqing/p/7491343.html 官 Read More
posted @ 2017-12-12 16:23 dahu1 Views(3397) Comments(0) Diggs(0) Edit
在python里使用pymongo处理mongodb数据库,在插入或者查询的时候,我们有时需要使用操作符号,如set,in, 具体操作符的可以参考 https://docs.mongodb.com/manual/reference/operator/query/ 需求:需要用到正则表达式 来插入 或 Read More
posted @ 2017-12-11 16:37 dahu1 Views(4351) Comments(0) Diggs(0) Edit
一般情况下,需要加这个: 打开其他文件编码用codecs.open 读 下面的代码读取了文件,将每一行的内容组成了一个列表。 import codecs file = codecs.open('test.txt','r','utf-8') lines = [line.strip() for line Read More
posted @ 2017-11-22 10:32 dahu1 Views(357) Comments(0) Diggs(0) Edit
官网: torch 各种操作,做个翻译,以后查阅 Tensors torch.is_tensor 如果 obj 是 pytorch 张量,则返回 True。 torch.is_storage 如果 obj 是 pytorch 存储对象,则返回 True。 torch.numel 返回输入张量中元素的 Read More
posted @ 2017-11-21 17:03 dahu1 Views(4323) Comments(0) Diggs(0) Edit
代码已经很详细了,可以直接拿来使用了。 包含了: 从网页获取cookie 存入mongodb 定期删除cookie scrapy中间件对cookie池的取用 对应的middleware文件,可以写成这样 Read More
posted @ 2017-11-20 14:52 dahu1 Views(5430) Comments(0) Diggs(0) Edit