摘要:
主要记录tar,zip,gzip,bzip2,rar等常用命令,对.tar、.gz、.tar.gz、.tgz、.bz2、.tar.bz2、.zip、.rar这8种压缩文件的操作.1. tar 命令 命令格式: tar [主选项+辅助选项] 文件/目录 主选项:c 打包,x 拆包,t 列出包的... 阅读全文
2015年3月30日
2015年3月16日
摘要:
以前使用jieba分词时,并没有注意到词性标注集到底包含哪些,刚好最近学习自然语言处理,涉及到分词以及词性标注,将ICTCLAS 词性标注集记录如下:ICTCLAS 汉语词性标注集代码名称帮助记忆的诠释Ag形语素形容词性语素。形容词代码为a,语素代码g前面置以A。a形容词取英语形容词adjecti... 阅读全文
2015年1月13日
摘要:
以前没接触过MPI编程,对并行计算也没什么了解。朋友的期末课程作业让我帮忙写一写,哎,实现结果很一般啊。最终也没完整完成任务,惭愧惭愧。 问题大概是利用MPI完成矩阵和向量相乘。输入:Am×n,Bn×1 ,输出:Cm×1 附:程序中定义m=400,n=100,矩阵和向量的取值为随意整型数,为... 阅读全文
2015年1月5日
摘要:
主成分分析(PCA)是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法,PCA的思想是将n维特征映射到k维上(k0时说明 X和 Y是正相关关系,协方差<0时 X和Y是负相关关系,协方差为0时 X和Y相互独立。 协方差的计算是针对两维的,对于n维的数据集,可以计算C(n,2)种协方差... 阅读全文
2014年12月5日
摘要:
使用的是python的pytesser模块,原先想做的是图片中文识别,搞了一段时间了,在中文的识别上还是有很多问题,这里做记录分享。 pytesser,OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块,可将图片中 阅读全文
2014年11月21日
摘要:
之前用的上海贝尔RG100A-AA路由器,被我无情地摧残了,电源按钮挂了,只能换个路由器。由于在校内,使用OP还是比较方便的,网上淘了这款华为HG255D,店主已刷好OP,无线速率300M,想想也是值便进货了。 与之前的RG100A-AA不同,HG255D已带WAN口,一开始想直接安装YaH3C... 阅读全文
2014年11月14日
摘要:
之前都是用路由器连网线上网,我也没注意到inode校园网客户端在linux上的问题。直到前两天把路由器给搞残废了,只能默默的找办法装inode。根据学校网络中心给的教程,在kubuntu上尝试安装inode居然出现错误,上不了网。通过网上各种求助贴,才知道inode在Linux下仅仅支持Ubunt... 阅读全文
2014年10月29日
摘要:
上次做用户反馈自动翻译,写了个python脚本,将日文的用户反馈翻译成中文,效果虽然可以,但其它不懂python的童鞋就没法使用了,所以搭了个web服务,让其他人可以通过网页访问查询。使用的是apache服务,具体环境(LAMP)搭建就不细说,主要分享php调用python脚本后台运行的处理。 ... 阅读全文
2014年9月30日
摘要:
由于实习公司这边做的是日文app,有时要看看用户反馈,对于我这种五十音图都没记住的人,表示百度翻译确实还可以。但不想每次都复制粘贴啊,google被墙也是挺蛋疼的事,所以用python结合baidu api 整了一下,和大家分享。 1.百度翻译api 由于百度翻译api需要用到API key... 阅读全文
2014年8月11日
摘要:
上一节我们学习knn,kNN的最大缺点就是无法给出数据的内在含义,而使用决策树处理分类问题,优势就在于数据形式非常容易理解。 决策树的算法有很多,有CART、ID3和C4.5等,其中ID3和C4.5都是基于信息熵的,也是我们今天的学习内容,主要是根据通过信息熵划分数据集,再进入递归构造决策树的... 阅读全文