2015年3月30日

摘要: 主要记录tar,zip,gzip,bzip2,rar等常用命令,对.tar、.gz、.tar.gz、.tgz、.bz2、.tar.bz2、.zip、.rar这8种压缩文件的操作.1. tar 命令 命令格式: tar [主选项+辅助选项] 文件/目录 主选项:c 打包,x 拆包,t 列出包的... 阅读全文
posted @ 2015-03-30 14:29 bbking 阅读(576) 评论(0) 推荐(0) 编辑

2015年3月16日

摘要: 以前使用jieba分词时,并没有注意到词性标注集到底包含哪些,刚好最近学习自然语言处理,涉及到分词以及词性标注,将ICTCLAS 词性标注集记录如下:ICTCLAS 汉语词性标注集代码名称帮助记忆的诠释Ag形语素形容词性语素。形容词代码为a,语素代码g前面置以A。a形容词取英语形容词adjecti... 阅读全文
posted @ 2015-03-16 15:45 bbking 阅读(9613) 评论(0) 推荐(0) 编辑

2015年1月13日

摘要: 以前没接触过MPI编程,对并行计算也没什么了解。朋友的期末课程作业让我帮忙写一写,哎,实现结果很一般啊。最终也没完整完成任务,惭愧惭愧。 问题大概是利用MPI完成矩阵和向量相乘。输入:Am×n,Bn×1 ,输出:Cm×1 附:程序中定义m=400,n=100,矩阵和向量的取值为随意整型数,为... 阅读全文
posted @ 2015-01-13 23:13 bbking 阅读(12034) 评论(0) 推荐(1) 编辑

2015年1月5日

摘要: 主成分分析(PCA)是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法,PCA的思想是将n维特征映射到k维上(k0时说明 X和 Y是正相关关系,协方差<0时 X和Y是负相关关系,协方差为0时 X和Y相互独立。 协方差的计算是针对两维的,对于n维的数据集,可以计算C(n,2)种协方差... 阅读全文
posted @ 2015-01-05 21:35 bbking 阅读(45691) 评论(3) 推荐(1) 编辑

2014年12月5日

摘要: 使用的是python的pytesser模块,原先想做的是图片中文识别,搞了一段时间了,在中文的识别上还是有很多问题,这里做记录分享。 pytesser,OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块,可将图片中 阅读全文
posted @ 2014-12-05 23:44 bbking 阅读(46313) 评论(3) 推荐(4) 编辑

2014年11月21日

摘要: 之前用的上海贝尔RG100A-AA路由器,被我无情地摧残了,电源按钮挂了,只能换个路由器。由于在校内,使用OP还是比较方便的,网上淘了这款华为HG255D,店主已刷好OP,无线速率300M,想想也是值便进货了。 与之前的RG100A-AA不同,HG255D已带WAN口,一开始想直接安装YaH3C... 阅读全文
posted @ 2014-11-21 01:58 bbking 阅读(2318) 评论(0) 推荐(1) 编辑

2014年11月14日

摘要: 之前都是用路由器连网线上网,我也没注意到inode校园网客户端在linux上的问题。直到前两天把路由器给搞残废了,只能默默的找办法装inode。根据学校网络中心给的教程,在kubuntu上尝试安装inode居然出现错误,上不了网。通过网上各种求助贴,才知道inode在Linux下仅仅支持Ubunt... 阅读全文
posted @ 2014-11-14 00:10 bbking 阅读(1719) 评论(0) 推荐(1) 编辑

2014年10月29日

摘要: 上次做用户反馈自动翻译,写了个python脚本,将日文的用户反馈翻译成中文,效果虽然可以,但其它不懂python的童鞋就没法使用了,所以搭了个web服务,让其他人可以通过网页访问查询。使用的是apache服务,具体环境(LAMP)搭建就不细说,主要分享php调用python脚本后台运行的处理。 ... 阅读全文
posted @ 2014-10-29 21:58 bbking 阅读(39374) 评论(1) 推荐(2) 编辑

2014年9月30日

摘要: 由于实习公司这边做的是日文app,有时要看看用户反馈,对于我这种五十音图都没记住的人,表示百度翻译确实还可以。但不想每次都复制粘贴啊,google被墙也是挺蛋疼的事,所以用python结合baidu api 整了一下,和大家分享。 1.百度翻译api 由于百度翻译api需要用到API key... 阅读全文
posted @ 2014-09-30 15:16 bbking 阅读(7588) 评论(0) 推荐(0) 编辑

2014年8月11日

摘要: 上一节我们学习knn,kNN的最大缺点就是无法给出数据的内在含义,而使用决策树处理分类问题,优势就在于数据形式非常容易理解。 决策树的算法有很多,有CART、ID3和C4.5等,其中ID3和C4.5都是基于信息熵的,也是我们今天的学习内容,主要是根据通过信息熵划分数据集,再进入递归构造决策树的... 阅读全文
posted @ 2014-08-11 23:44 bbking 阅读(2486) 评论(0) 推荐(0) 编辑

导航