Python - 随笔分类 - bbking

数据分析:中国高校更名历史 Python

摘要：上周领了新任务，做国内高校改名历史的统计，这个挺有意思，以下是我任务完成过程，和大家分享。一. 数据收集数据需求：目前已有高校校名，各高校改名历史记录高校校名数据来源：尝试从高校排名网站（iPIN），中国教育和科研计算机网等抓取，但高校名不全，前者709，后者1394，最后从教育部找到一... 阅读全文

posted @ 2015-07-18 20:46 bbking 阅读(2232) 评论(1) 推荐(2)

ICTCLAS 汉语词性标注集

摘要：以前使用jieba分词时，并没有注意到词性标注集到底包含哪些，刚好最近学习自然语言处理，涉及到分词以及词性标注，将ICTCLAS 词性标注集记录如下：ICTCLAS 汉语词性标注集代码名称帮助记忆的诠释Ag形语素形容词性语素。形容词代码为a，语素代码ｇ前面置以A。a形容词取英语形容词adjecti... 阅读全文

posted @ 2015-03-16 15:45 bbking 阅读(10091) 评论(0) 推荐(0)

Python 主成分分析PCA

摘要：主成分分析（PCA）是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法，PCA的思想是将n维特征映射到k维上（k0时说明 X和 Y是正相关关系，协方差<0时 X和Y是负相关关系，协方差为0时 X和Y相互独立。协方差的计算是针对两维的，对于n维的数据集，可以计算C(n,2)种协方差... 阅读全文

posted @ 2015-01-05 21:35 bbking 阅读(45865) 评论(3) 推荐(1)

Python 利用pytesser模块识别图像文字

摘要：使用的是python的pytesser模块，原先想做的是图片中文识别，搞了一段时间了，在中文的识别上还是有很多问题，这里做记录分享。 pytesser，OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块，可将图片中阅读全文

posted @ 2014-12-05 23:44 bbking 阅读(46460) 评论(3) 推荐(4)

Python 调用百度翻译API

摘要：由于实习公司这边做的是日文app，有时要看看用户反馈，对于我这种五十音图都没记住的人，表示百度翻译确实还可以。但不想每次都复制粘贴啊，google被墙也是挺蛋疼的事，所以用python结合baidu api 整了一下，和大家分享。 1.百度翻译api 由于百度翻译api需要用到API key... 阅读全文

posted @ 2014-09-30 15:16 bbking 阅读(7619) 评论(0) 推荐(0)

Python 决策树的构造

摘要：上一节我们学习knn，kNN的最大缺点就是无法给出数据的内在含义，而使用决策树处理分类问题，优势就在于数据形式非常容易理解。决策树的算法有很多，有CART、ID3和C4.5等，其中ID3和C4.5都是基于信息熵的，也是我们今天的学习内容，主要是根据通过信息熵划分数据集，再进入递归构造决策树的... 阅读全文

posted @ 2014-08-11 23:44 bbking 阅读(2502) 评论(0) 推荐(0)

Python 手写数字识别-knn算法应用

摘要：在上一篇博文中，我们对KNN算法思想及流程有了初步的了解，KNN是采用测量不同特征值之间的距离方法进行分类，也就是说对于每个样本数据，需要和训练集中的所有数据进行欧氏距离计算。这里简述KNN算法的特点：优点：精度高，对异常值不敏感，无数据输入假定缺点：计算复杂度高，空间复杂度高适用数据范围：数值... 阅读全文

posted @ 2014-07-26 13:31 bbking 阅读(22831) 评论(8) 推荐(5)

Python KNN算法

摘要：机器学习新手，接触的是《机器学习实战》这本书，感觉书中描述简单易懂，但对于python语言不熟悉的我，也有很大的空间。今天学习的是k-近邻算法。 1. 简述机器学习在日常生活中，人们很难直接从原始数据本身获得所需信息。而机器学习就是把生活中无序的数据转换成有用的信息。例如，对于垃圾邮件的检... 阅读全文

posted @ 2014-07-22 22:07 bbking 阅读(7412) 评论(0) 推荐(0)

Python TF-IDF计算100份文档关键词权重

摘要：上一篇博文中，我们使用结巴分词对文档进行分词处理，但分词所得结果并不是每个词语都是有意义的（即该词对文档的内容贡献少），那么如何来判断词语对文档的重要度呢，这里介绍一种方法：TF-IDF。一，TF-IDF介绍 TF-IDF（Term Frequency–Inverse Document F... 阅读全文

posted @ 2014-07-17 15:39 bbking 阅读(66624) 评论(17) 推荐(5)

Python 结巴分词

摘要：今天的任务是对txt文本进行分词，有幸了解到"结巴"中文分词，其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式：＊精确模式，试图将句子最精确地切开，适合文本分析；＊全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；＊... 阅读全文

posted @ 2014-07-14 23:58 bbking 阅读(12678) 评论(1) 推荐(1)

Python 将pdf转换成txt（不处理图片）

摘要：上一篇文章中已经介绍了简单的python爬网页下载文档，但下载后的文档多为doc或pdf，对于数据处理仍然有很多限制，所以将doc／pdf转换成txt显得尤为重要。查找了很多资料，在linux下要将doc转换成txt确实有难度，所以考虑先将pdf转换成txt。师兄推荐使用PDFMiner来处... 阅读全文

posted @ 2014-07-11 12:18 bbking 阅读(11841) 评论(1) 推荐(1)

Python小爬虫-自动下载三亿文库文档

摘要：新手学python，写了一个抓取网页后自动下载文档的脚本，和大家分享。首先我们打开三亿文库下载栏目的网址，比如专业资料（IT／计算机／互联网）http://3y.uu456.com/bl-197?od=1&pn=0，可以观察到，链接中pn=后面的数字就是对应的页码，所以一会我们会用iurl =... 阅读全文

posted @ 2014-07-10 14:02 bbking 阅读(4931) 评论(1) 推荐(0)

bbking

随笔分类 - Python