08 2017 档案

摘要:终端下锁屏ctrl + s,解锁 ctrl + q 长时间运行命令,防中断 screen 注意,screen命令里面是不可以滚动屏幕,查看以前记录的 : ctrl+A + [ 终端切割屏幕,类似vim的分屏: terminator tmux tail -f 等同于 --follow=descript 阅读全文
posted @ 2017-08-31 14:46 dahu1 阅读(200) 评论(0) 推荐(0) 编辑
摘要:项目地址: https://github.com/ssut/py-googletrans 安装: 使用: 结果: 本来想直接构造查询单词的url地址,但是在爬取的时候获取不到那个值,里面有个tk值不知道. 看了下源码又修改了一下: 直接提取所翻译的字 阅读全文
posted @ 2017-08-31 10:39 dahu1 阅读(1184) 评论(0) 推荐(0) 编辑
摘要:官网 网上搜的安装教程:SRILM的安装方法 最近做的一个项目要用到语言模型,在网上找了一些开源的工具包试了一下。废话不多说,下面直接介绍一下SRILM的安装方法。 我实在ubuntu14.04底下使用SRILM。 SRILM的下载地址(我使用的是1.7.1版本) 1、安装 tcl 有用SRILM要 阅读全文
posted @ 2017-08-30 11:25 dahu1 阅读(1125) 评论(0) 推荐(0) 编辑
摘要:目录: 一基本训练 二语言模型打分 三语言模型剪枝 四语言模型合并 五语言模型使用词典限制 一、基本训练 有两种训练方法,分别如下: 二、语言模型打分 例: 三、语言模型剪枝 例: 四、语言模型合并 在合并语言模型之前,可以使用脚本计算出最好的比例,参考srilm的compute-best-mix脚 阅读全文
posted @ 2017-08-29 21:24 dahu1 阅读(4796) 评论(1) 推荐(1) 编辑
摘要:先看一下语言模型的输出格式 ARPA是常用的语言模型存储格式, 由主要由两部分构成。模型文件头和模型文件体构成。 上面是一个语言模型的一部分,三元语言模型的综合格式如下: 第一项表示ngram的条件概率,就是P(wordN | word1,word2,。。。,wordN-1)。 第二项表示ngram 阅读全文
posted @ 2017-08-29 17:02 dahu1 阅读(3633) 评论(0) 推荐(2) 编辑
摘要:直观理解矩阵,比较好的文章和视频: 孟岩的三篇: 理解矩阵一 理解矩阵二 理解矩阵三 科学空间的6篇 新理解矩阵 3Blue1Brown在Blili的视频合集 一通下来,如痴如醉,大学的时候就该看这些了,对于加深矩阵的理解,很有用。 阅读全文
posted @ 2017-08-24 23:35 dahu1 阅读(258) 评论(0) 推荐(0) 编辑
摘要:生成器 参考文章: 协程 gevent 生成器进阶 看个例子: 结果: 可以看出 生成器的send(None)方法等于next()方法,next()方法可以直接替换成for循环 通过send(n)传递参数n进生成器,生成器里面通过yield关键字来获取参数的值 协程 我们利用这个特性,来学习一下协程 阅读全文
posted @ 2017-08-22 20:46 dahu1 阅读(233) 评论(0) 推荐(0) 编辑
摘要:Python中,队列是线程间最常用的交换数据的形式。Queue模块是提供队列操作的模块,虽然简单易用,但是不小心的话,还是会出现一些意外。 创建一个“队列”对象import Queueq = Queue.Queue(maxsize = 10)Queue.Queue类即是一个队列的同步实现。队列长度可 阅读全文
posted @ 2017-08-22 20:04 dahu1 阅读(492) 评论(0) 推荐(0) 编辑
摘要:本章学习爬虫的 回调和跟踪链接 使用参数 回调和跟踪链接 上一篇的另一个爬虫,这次是为了抓取作者信息 这个爬虫将从主页面开始, 以 parse_author 回调方法跟踪所有到作者页面的链接,以 parse 回调方法跟踪其它页面。 这里我们将回调方法作为参数直接传递给 response.follow 阅读全文
posted @ 2017-08-16 21:40 dahu1 阅读(553) 评论(0) 推荐(0) 编辑
摘要:最近一段时间开始研究爬虫,后续陆续更新学习笔记 爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架(你不可能逮到一个需求就从头写个爬虫把,框架已经有了) 多线程 当然这是我自己的理解,而scrapy框 阅读全文
posted @ 2017-08-16 17:10 dahu1 阅读(339) 评论(0) 推荐(0) 编辑
摘要:参考w3cschool教程 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 因此,对 XPath 的理解是很多 阅读全文
posted @ 2017-08-16 15:59 dahu1 阅读(2526) 评论(0) 推荐(0) 编辑
摘要:先了解下概念: ubuntu本地安装东西的时候,老是会遇到: 去官网看,不再支持6和7了: 安装ORACLE JAVA 8 INSTALL ORACLE JAVA 8 IN UBUNTU OR LINUX MINT VIA PPA REPOSITORY [JDK8] ok 如果还不是,可能本地装了其 阅读全文
posted @ 2017-08-09 20:31 dahu1 阅读(2266) 评论(0) 推荐(0) 编辑
摘要:直接去官网找:https://www.mongodb.com/download-center#community 但是发现下载太慢,看下官网的说明: Install MongoDB Community Edition on Ubuntu PLATFORM SUPPORT MongoDB only p 阅读全文
posted @ 2017-08-09 00:09 dahu1 阅读(271) 评论(0) 推荐(0) 编辑
摘要:apt-get命令: apt-get是debian,ubuntu发行版的包管理工具,与红帽中的yum工具非常类似,适用于deb包管理式的操作系统,主要用于自动从互联网的软件仓库中搜索、安装、升级、卸载软件或操作系统。apt-get在安装包的时候是根据/etc/apt/sources.list文件中指 阅读全文
posted @ 2017-08-07 20:10 dahu1 阅读(5088) 评论(0) 推荐(0) 编辑
摘要:语法:tar [主选项+辅选项] 文件或者目录 使用该命令时,主选项是必须要有的,它告诉tar要做什么事情,辅选项是辅助使用的,可以选用。主选项:-c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以 阅读全文
posted @ 2017-08-07 16:16 dahu1 阅读(542) 评论(0) 推荐(0) 编辑
摘要:#学习鸟哥的linux私房菜 /etc/passwd的文件构造: 每一行为一个帐号以冒好:作为间隔,每个代表的意思是 1.帐号名称,用来对应uid的,root就是0 2.密码,密码数据现在/etc/shadow 中,所以这里会有一个『x 』 3.UID 4.GID 这个与/etc/group 有关! 阅读全文
posted @ 2017-08-07 15:22 dahu1 阅读(1496) 评论(0) 推荐(0) 编辑
摘要:在Linux或Unix上,md5sum是用来计算和校验文件报文摘要的工具程序。md5sum是一种计算机程序,用于计算与校验RFC 1321所描述的128位MD5哈希值,此处MD5散列值(或校验和)作一个文件的数字指纹使用。 两个不同的文件几乎不可能有相同的MD5哈希值,除非其创建便是刻意为之。一般来 阅读全文
posted @ 2017-08-02 13:49 dahu1 阅读(3146) 评论(0) 推荐(0) 编辑
摘要:在HTK训练线上数据的时候,遇到了ERROR [+6550] LoadHTKLabels: Junk at end of HTK transcription,这个问题,网上查阅是说有空行,结果根本没有空行,最后查找可知,是标注文件lab里面有空格,转成lab.mlf文件后,空格单独成一行,所以造成了 阅读全文
posted @ 2017-08-01 10:29 dahu1 阅读(882) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示