摘要: 一共两个脚本: 第一个是【借书完毕以及借书信息有变更(续借等)】的时候需要执行的脚本;实现模拟登陆,同时最新的借书信息的下载到本地文本;之所以没有这样做,是因为如果每次爬取一遍的话,需要每次输入一遍验证码,就没有意义了;现在输入一次就可以了;导出到文本上,以后直接读取就行了。 第二个脚本,需要添加到 阅读全文
posted @ 2016-11-07 18:11 coskaka 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: 首先是爬取了我们学校贴吧的贴吧数据,每个帖子都有是否是精品贴的标签。 根据帖子标题信息,实现了贴吧精品贴和普通贴的分类。错误率在10%左右。 切词用的是jieba吧,没有过滤点停用词和标点符号,因为标点符号其实也是可以算是区分帖子是否是精品贴的而一个重要特征;其实还可以增加几个特征,比如第一页是否含 阅读全文
posted @ 2016-11-03 23:37 coskaka 阅读(658) 评论(0) 推荐(0) 编辑
摘要: 待处理的数据为放在两个文件夹中的各25个txt文本,文本信息为电子邮件内容,文件夹spam中的25个邮件都是正常邮件;ham中的25个邮件是垃圾邮件; 利用朴素贝叶斯算法,训练分类器,采取交叉验证的方式,结果证明,分类器能够很好的识别垃圾邮件; 代码主要参考【机器学习实战】,但是有的代码已经不能用了 阅读全文
posted @ 2016-11-02 20:42 coskaka 阅读(2415) 评论(0) 推荐(0) 编辑
摘要: http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-geocoding http://lbs.amap.com/api/webservice/guide/api/georegeo/#geo 看文档就可以了,然后通过pytho 阅读全文
posted @ 2016-10-20 22:40 coskaka 阅读(598) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://cenalulu.github.io/mysql/mysql-mojibake/ 原文作者:Junyi Lu,卢钧轶 / cenalulu / Luke 查看原文。 阅读全文
posted @ 2016-10-17 11:05 coskaka 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://cenalulu.github.io/linux/character-encoding/ 原文作者:Junyi Lu,卢钧轶 本文将简述字符集,字符编码的概念。以及在遭遇乱码时的一些常用诊断技巧 背景:字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题。当遇到纷繁复杂的字符集 阅读全文
posted @ 2016-10-17 11:03 coskaka 阅读(100) 评论(0) 推荐(0) 编辑
摘要: python的编码和解码问题烦扰我很久了。虽然平时通过改下编码类型就解决了。但是相关的原理理解的还是不太透彻。今天查阅了众多材料,终于大概明白了。过程中参考了众多优秀的文章,引用的文章链接地址会附在文中或是文后。编码解码这个问题对于没接触过的初学者有点难,因此,也感谢众多前人的记录,这篇文章也将给后 阅读全文
posted @ 2016-10-16 20:28 coskaka 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 2016-10-15 运行结果: 阅读全文
posted @ 2016-10-15 18:56 coskaka 阅读(8852) 评论(0) 推荐(0) 编辑