随笔分类 -  Python

Python learning
数据分析:中国高校更名历史 Python
摘要:上周领了新任务,做国内高校改名历史的统计,这个挺有意思,以下是我任务完成过程,和大家分享。一. 数据收集 数据需求:目前已有高校校名,各高校改名历史记录 高校校名数据来源:尝试从高校排名网站(iPIN),中国教育和科研计算机网等抓取,但高校名不全,前者709,后者1394,最后从教育部找到一... 阅读全文

posted @ 2015-07-18 20:46 bbking 阅读(2148) 评论(1) 推荐(2) 编辑

ICTCLAS 汉语词性标注集
摘要:以前使用jieba分词时,并没有注意到词性标注集到底包含哪些,刚好最近学习自然语言处理,涉及到分词以及词性标注,将ICTCLAS 词性标注集记录如下:ICTCLAS 汉语词性标注集代码名称帮助记忆的诠释Ag形语素形容词性语素。形容词代码为a,语素代码g前面置以A。a形容词取英语形容词adjecti... 阅读全文

posted @ 2015-03-16 15:45 bbking 阅读(9709) 评论(0) 推荐(0) 编辑

Python 主成分分析PCA
摘要:主成分分析(PCA)是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法,PCA的思想是将n维特征映射到k维上(k0时说明 X和 Y是正相关关系,协方差<0时 X和Y是负相关关系,协方差为0时 X和Y相互独立。 协方差的计算是针对两维的,对于n维的数据集,可以计算C(n,2)种协方差... 阅读全文

posted @ 2015-01-05 21:35 bbking 阅读(45704) 评论(3) 推荐(1) 编辑

Python 利用pytesser模块识别图像文字
摘要:使用的是python的pytesser模块,原先想做的是图片中文识别,搞了一段时间了,在中文的识别上还是有很多问题,这里做记录分享。 pytesser,OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块,可将图片中 阅读全文

posted @ 2014-12-05 23:44 bbking 阅读(46326) 评论(3) 推荐(4) 编辑

Python 调用百度翻译API
摘要:由于实习公司这边做的是日文app,有时要看看用户反馈,对于我这种五十音图都没记住的人,表示百度翻译确实还可以。但不想每次都复制粘贴啊,google被墙也是挺蛋疼的事,所以用python结合baidu api 整了一下,和大家分享。 1.百度翻译api 由于百度翻译api需要用到API key... 阅读全文

posted @ 2014-09-30 15:16 bbking 阅读(7592) 评论(0) 推荐(0) 编辑

Python 决策树的构造
摘要:上一节我们学习knn,kNN的最大缺点就是无法给出数据的内在含义,而使用决策树处理分类问题,优势就在于数据形式非常容易理解。 决策树的算法有很多,有CART、ID3和C4.5等,其中ID3和C4.5都是基于信息熵的,也是我们今天的学习内容,主要是根据通过信息熵划分数据集,再进入递归构造决策树的... 阅读全文

posted @ 2014-08-11 23:44 bbking 阅读(2487) 评论(0) 推荐(0) 编辑

Python 手写数字识别-knn算法应用
摘要:在上一篇博文中,我们对KNN算法思想及流程有了初步的了解,KNN是采用测量不同特征值之间的距离方法进行分类,也就是说对于每个样本数据,需要和训练集中的所有数据进行欧氏距离计算。这里简述KNN算法的特点:优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值... 阅读全文

posted @ 2014-07-26 13:31 bbking 阅读(22618) 评论(8) 推荐(5) 编辑

Python KNN算法
摘要:机器学习新手,接触的是《机器学习实战》这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间。今天学习的是k-近邻算法。 1. 简述机器学习 在日常生活中,人们很难直接从原始数据本身获得所需信息。而机器学习就是把生活中无序的数据转换成有用的信息。例如,对于垃圾邮件的检... 阅读全文

posted @ 2014-07-22 22:07 bbking 阅读(7373) 评论(0) 推荐(0) 编辑

Python TF-IDF计算100份文档关键词权重
摘要:上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF。 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document F... 阅读全文

posted @ 2014-07-17 15:39 bbking 阅读(66454) 评论(17) 推荐(5) 编辑

Python 结巴分词
摘要:今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *... 阅读全文

posted @ 2014-07-14 23:58 bbking 阅读(12653) 评论(1) 推荐(1) 编辑

Python 将pdf转换成txt(不处理图片)
摘要:上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt。 师兄推荐使用PDFMiner来处... 阅读全文

posted @ 2014-07-11 12:18 bbking 阅读(11811) 评论(1) 推荐(1) 编辑

Python小爬虫-自动下载三亿文库文档
摘要:新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享。 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl =... 阅读全文

posted @ 2014-07-10 14:02 bbking 阅读(4875) 评论(1) 推荐(0) 编辑

导航

统计

点击右上角即可分享
微信分享提示