在Linux或Unix上,md5sum是用来计算和校验文件报文摘要的工具程序。md5sum是一种计算机程序,用于计算与校验RFC 1321所描述的128位MD5哈希值,此处MD5散列值(或校验和)作一个文件的数字指纹使用。 两个不同的文件几乎不可能有相同的MD5哈希值,除非其创建便是刻意为之。一般来 Read More
posted @ 2017-08-02 13:49 dahu1 Views(3125) Comments(0) Diggs(0) Edit
在HTK训练线上数据的时候,遇到了ERROR [+6550] LoadHTKLabels: Junk at end of HTK transcription,这个问题,网上查阅是说有空行,结果根本没有空行,最后查找可知,是标注文件lab里面有空格,转成lab.mlf文件后,空格单独成一行,所以造成了 Read More
posted @ 2017-08-01 10:29 dahu1 Views(796) Comments(0) Diggs(0) Edit
参考 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 1.传递url参数 还可以传递值为列表 2.响应内容 可以取服务器响应的内容, 3. 定制请求头 Read More
posted @ 2017-07-28 17:31 dahu1 Views(267) Comments(0) Diggs(0) Edit
转载自实验楼,之前有更新过两篇git的文章,毕竟内容太少,而git还有很多更丰富的技能,在实验楼上有一系列全的教程,这里做一下备案.需要时查阅. Git 实战教程 目录 一、实验说明 二、git的初始化 1.Git 配置 三、获得一个Git仓库 1.Clone一个仓库 2.初始化一个新的仓库 四、正 Read More
posted @ 2017-07-26 15:47 dahu1 Views(781) Comments(0) Diggs(0) Edit
前段时间提交代码都是各种手写push push push,好蠢,今天尝试了一下ide直接提交,爽的一匹,做个总结. 首先github帐号肯定要有. 看图,设置好帐号啥的 再设置git路径,这个应该自动弄好的 继续,这个时候你代码写好了,一般是准备上传,更新到远程服务器 选择要上传的文件,还可以写评论 Read More
posted @ 2017-07-24 20:11 dahu1 Views(1144) Comments(0) Diggs(0) Edit
一、安装截图工具 Shutter 1. 添加安装包软件源 2. 更新源并安装 shutter 3. 搜索 shutter 可看到已安装成功 二、设置 Shutter 快捷键 1. 打开系统设置 2. 打开 Keyboard 键盘设置 3. 添加成功的状态 4. 单击右侧 Disabled,然后快速按 Read More
posted @ 2017-07-21 21:09 dahu1 Views(568) Comments(0) Diggs(0) Edit
转一篇重定向的文章,单独的">" 或者 ">>" 我们用的很多了,但是最好是把标准输出和标准错误都保存在文件里,当作日志,单独的一个">"并不能保存标准错误. 常见用法: Linux中,脚本语言环境中,即你用make xxx即其他一些普通linux命令,比如ls,find等,不同的数字,代表不同的含 Read More
posted @ 2017-07-20 09:33 dahu1 Views(210) Comments(0) Diggs(0) Edit
历时N天的hadoop环境,终于配好了 主要参考 Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 1.开机默认进入字符界面或者是图形界面:http://blog.csdn.net/tspangle/article/details/18255647/ 2.vmware Read More
posted @ 2017-07-12 15:03 dahu1 Views(198) Comments(0) Diggs(1) Edit
网上看到的一些图,感觉不错,分享一下 我现在感觉配置文件,很多没有必要,反而很花哨,但是这些基础的东西,反而很高效,实在 VIM的列编辑操作 删除列 1.光标定位到要操作的地方。 2.CTRL+v 进入“可视 块”模式,选取这一列操作多少行。 3.d 删除。 插入列 插入操作的话知识稍有区别。例如我 Read More
posted @ 2017-07-07 20:35 dahu1 Views(250) Comments(0) Diggs(0) Edit
这几天刚处理一个排序问题 源文件: 可以看到有11G大小,需要根据最后一列的热度来做一下排序.如果让你来做这样的排序,在linux环境下,你会如何处理呢? 方法一: 我首先用python来解决: 可以看出代码还是略显复杂,其中排序算法,我用的是列表自带的sort方法,也可以自己写,参考上一篇文章,用 Read More
posted @ 2017-07-04 21:40 dahu1 Views(1356) Comments(0) Diggs(0) Edit
http://python.jobbole.com/82270/ 八大排序算法的 Python 实现 Read More
posted @ 2017-07-03 21:29 dahu1 Views(124) Comments(0) Diggs(0) Edit
《鸟哥的Linux私房菜 基础学习篇(第三版)》 7.4.2 读书笔记 显然,这里要说的并不是rwx那9个权限,而是要聊chattr和lsattr这两个命令。这两个命令在只能在Ext2/Ext3的文件系统上面生效,其他文件系统可能就无法支持了。 chattr 设置文件的隐藏属性 #chattr [+ Read More
posted @ 2017-06-29 09:55 dahu1 Views(689) Comments(0) Diggs(0) Edit
参考: http://www.360doc.com/content/17/0627/09/44797135_666854802.shtml https://linux.cn/article-5660-1.html 在日常工作中,许多事情要经常与电脑打交道,特别是高频率地使用一些专业性的软件,或者是玩 Read More
posted @ 2017-06-27 09:29 dahu1 Views(1694) Comments(0) Diggs(1) Edit
激活函数(Activation Function) 为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。最常用的函数包括 sigmoid、tanh、ReLU(Rectified Linear Unit 线性修正单元) 以及这些函数的变体。 Read More
posted @ 2017-06-26 10:08 dahu1 Views(418) Comments(0) Diggs(0) Edit
在使用ssh或者telnet登录远程主机后,执行一些耗时的命令,如果此时ssh或者telnet中断,那么远程主机上正在执行的程序或者说命令也会被迫终止。比如你远程登录之后需要执行一个耗时的指令如svn checkout,这时马上又要下班了,你要关闭你的电脑走人了,怎么办?screen能够很好地解决这 Read More
posted @ 2017-06-17 21:19 dahu1 Views(1533) Comments(0) Diggs(1) Edit
参考:老顽童log模块,讲的很细致,基本上拿到手就可以直接用了,很赞 1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点: 2 logging模块使用 2.1 基本使用 Read More
posted @ 2017-06-17 17:14 dahu1 Views(5997) Comments(2) Diggs(6) Edit
参考老顽童博客,他写的很详细,例子也很容易操作和理解. 1.模块简介 collections包含了一些特殊的容器,针对Python内置的容器,例如list、dict、set和tuple,提供了另一种选择; namedtuple,可以创建包含名称的tuple; deque,类似于list的容器,可以快 Read More
posted @ 2017-06-17 16:07 dahu1 Views(8434) Comments(0) Diggs(1) Edit
喷完了自己,浑身舒爽. 搞个计划,最近要学东西,以提交博客为准,提交了才认为ok. 1.python的新书<<Fluent python>>不错,老的python资料已经满足不了需求了.继续研读.看到第四章.p113. --19晚之前 2.hadopp本地虚拟机搭建环境,完成.特么的,上周就搭了,没 Read More
posted @ 2017-06-17 14:52 dahu1 Views(185) Comments(0) Diggs(0) Edit
误打误撞进入这个行业,也算是缘分把,不到一年的时光里,剖析一下自己,别写了半天代码,学了一堆东西,不知道干嘛.反省一下. 1.目标与知识库 就目前在我看来,是想成为一名优秀的数据工程师,掌握全栈数据分析技术. 技术链: 爬虫 -python 数据清洗 -linux,shell,python,awk, Read More
posted @ 2017-06-17 14:39 dahu1 Views(217) Comments(0) Diggs(0) Edit
我们在存/取数据时,没有必要存成文本形式,多试试二进制形式,文本只是骗骗眼睛的,要更快和更高效 1.数组形式 如果我们需要一个之包含数字的列表,那就试试array.array,注意,不是numpy模块下的,他是自己独立的模块,支持同样的pop,insert,extend操作,同时还支持从文件存/取文 Read More
posted @ 2017-06-15 21:19 dahu1 Views(2738) Comments(0) Diggs(0) Edit
一般正常比较两个文件用vimdiff,算是直接进入vim界面,如果比较两个文件夹下面的文件,可以用diff,注意,这里只会比较文件夹下面的同名文件,他会列出不一样的点. 参考Linux下Diff命令使用方法 diff Linux中Diff命令的功能为逐行比较两个文本文件,列出其不同之处。它对给出的文 Read More
posted @ 2017-06-08 16:54 dahu1 Views(937) Comments(0) Diggs(0) Edit
原文:python 学习笔记 8 -- Python下调用Linux的Shell命令 有时候难免需要直接调用Shell命令来完成一些比较简单的操作,比如mount一个文件系统之类的。那么我们使用Python如何调用Linux的Shell命令?下面来介绍几种常用的方法: 1. os 模块 1.1. o Read More
posted @ 2017-06-07 00:56 dahu1 Views(661) Comments(0) Diggs(0) Edit
hasattr(object, name)判断一个对象里面是否有name属性或者name方法,返回BOOL值,有name特性返回True, 否则返回False。需要注意的是name要用括号括起来 getattr(object, name[,default])获取对象object的属性或者方法,如果存 Read More
posted @ 2017-06-07 00:34 dahu1 Views(221) Comments(0) Diggs(0) Edit
参考 vim正则表达式 与上一篇 linux shell 正则表达式(BREs,EREs,PREs)的比较 可以结合一起看 Vim中的正则表达式功能很强大,如果能自由运用,则可以完成很多难以想象的操作。 一、使用正则表达式的命令 使用正则表达式的命令最常见的就是 / (搜索)命令。其格式如下: 另一 Read More
posted @ 2017-06-01 21:51 dahu1 Views(1417) Comments(0) Diggs(0) Edit
原文 : linux shell 正则表达式(BREs,EREs,PREs)差异比较 在使用 linux shell的实用程序,如awk,grep,sed等,正则表达式必不可少,他们的区别是什么 (vim中见 下一篇 vim正则表达式) 正则表达式:在计算机科学中,是指一个用来描述或者匹配一系列符合 Read More
posted @ 2017-06-01 21:43 dahu1 Views(665) Comments(0) Diggs(0) Edit
练习实验楼实验 : 原文 一、实验介绍 1.1 实验内容 hadoop三种安装模式介绍 hadoop单机模式安装 测试安装 1.2 实验知识点 下载解压/环境变量配置 Linux/shell 测试WordCount程序 1.3 实验环境 hadoop2.6.0 1.4 适合人群 本课程难度为一般,属 Read More
posted @ 2017-06-01 13:51 dahu1 Views(424) Comments(0) Diggs(0) Edit
python中有个pdb模块,使python代码也可以像gdb那样进行调试,一般情况下pdb模块可以在代码内直接使用,也可以通过命令行参数的形式添加该模块进行调试(python -m pdb file.py)。在代码中直接使用pdb模块调试时,import pdb模块后,然后在需要调试的代码出添加p Read More
posted @ 2017-05-31 20:47 dahu1 Views(526) Comments(0) Diggs(0) Edit
python安装: 华为镜像: https://mirrors.huaweicloud.com/python/ tar -xvzf Python-3.6.4.tgz cd Python-3.6.4 ./configure --with-ssl make sudo make install# sudo Read More
posted @ 2017-05-27 09:15 dahu1 Views(7026) Comments(1) Diggs(0) Edit
后来也找到一篇文章讲的很详细: http://www.cnblogs.com/ctaixw/p/5860221.html sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为: s Read More
posted @ 2017-05-25 14:54 dahu1 Views(377) Comments(0) Diggs(0) Edit
核心思想: 1.本地主机生成公钥私钥,私钥自己存着,公钥传到远程主机.ssh文件夹下authorized_keys文件(默认是这个,用追加的方式) 2.本地连接远程主机,公私钥对上就可以免密登入了. 3.authorized_keys的权限要是600。 步骤 主机: 1.生成公钥和私钥文件id_rs Read More
posted @ 2017-05-17 09:21 dahu1 Views(422) Comments(0) Diggs(0) Edit
1.最常用的sys.argv[],这个不多谈 2.形如 输出: code: Read More
posted @ 2017-05-16 22:03 dahu1 Views(2008) Comments(0) Diggs(0) Edit
Python -> shell: 参考文章 1.环境变量 2.字符串连接 3.通过管道 import os var=’123’ os.popen(’wc -c’, ’w’).write(var) 4.通过文件 output = open(‘/tmp/mytxt’, ‘w’) output.write Read More
posted @ 2017-05-16 09:37 dahu1 Views(921) Comments(0) Diggs(0) Edit
set命令显示所有的本地变量 unset清除,只读变量不允许清除 使环境变量及时生效: 1.系统的:在/etc/profile文件中添加变量【对所有用户生效(永久的)】, 要让刚才的修改马上生效,需要执行以下代码 # source /etc/profile 2.用户的:在用户目录下的.bash_pr Read More
posted @ 2017-05-11 23:27 dahu1 Views(191) Comments(0) Diggs(0) Edit
文件car: 基本 file 里可以写awk程序,也就是上面引号的内容,不需要加引号. BEGIN length NR END if OFS 什么样的情况下才会按照新格式输出呢? printf FS 输入字段分隔符 for 实操: 1.统计不重复的个数: 2.统计某一项的个数: 3.找到某几行的内容 Read More
posted @ 2017-05-10 22:25 dahu1 Views(315) Comments(0) Diggs(0) Edit
向量的乘法有两种,分别成为内积和外积. 内积也称数量积,因为其结果为一个数(标量)向量a,b的内积为|a|*|b|cos,其中表示a与b的夹角向量外积也叫叉乘,其结果为一个向量,方向是按右手系垂直与a,b所在平面|a|*|b|sin 外积:元素对应乘积 ,Hadamard 乘积 , A的形状m*n, Read More
posted @ 2017-05-07 17:16 dahu1 Views(474) Comments(0) Diggs(0) Edit
原文在这里 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光 Read More
posted @ 2017-05-05 22:09 dahu1 Views(192) Comments(0) Diggs(0) Edit
numpy学习,为后续机器学习铺垫 参考网址 Read More
posted @ 2017-04-24 00:14 dahu1 Views(441) Comments(0) Diggs(0) Edit
目前有很多xml,html文档的parser,如标准库的xml.etree , beautifulsoup , 还有lxml. 都用下来感觉lxml不错,速度也还行,就他了. 围绕三个问题: 问题1:有一个XML文件,如何解析 问题2:解析后,如果查找、定位某个标签 问题3:定位后如何操作标签,比如 Read More
posted @ 2017-04-22 21:38 dahu1 Views(15851) Comments(0) Diggs(1) Edit
如题 当然你要是用的不爽,也可以自己设置 比如说格式化代码是 alt + ctrl + L,这个在linux下跟锁屏是冲突的,可以修改成alt + ctrl + K 常用操作: 编辑类: 运行类: 调试类: 导航类: 查找/替换类: 搜索类: 重构类: 一般: Read More
posted @ 2017-04-22 16:47 dahu1 Views(382) Comments(0) Diggs(0) Edit
原文这里,非常实用,转载一下 再来一篇,两篇一起看,美滋滋 本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。 注意:本文基于Python2.4完成 Read More
posted @ 2017-04-22 14:39 dahu1 Views(276) Comments(0) Diggs(0) Edit