摘要: 字符串匹配算法——Sunday 听到字符串匹配,我们第一想到的是经典的KMP算法,为什么会是它,因为它实在是太经典了。但是我们今天要讲的是另一个算法,Sunday算法,比KMP还要快的字符串匹配。 假设 匹配串 为$\quad$abcabdaababcbab 模式串 为$\quad$babcb 设匹 阅读全文
posted @ 2016-10-10 18:34 phil_chow 阅读(577) 评论(0) 推荐(0) 编辑
摘要: Git Learning 创建本地版本库 $ git init 版本操作 新增文件,提交 $ git add <filename> $ git commit -m "some hints" 查看日志 # 一行显示log信息 $ git log --pretty=oneline 版本退回 # 退回到上 阅读全文
posted @ 2016-09-30 09:27 phil_chow 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 废话不多说,先上图: 此程序的主要目的,就是将碑文图片上的汉字截取出来,并且将文字周围多余边距去除,完成此后模式识别的先前准备工作。 用的是opencv的库,在处理噪音和二值化处理的时候方便一点。 其中涉及了一些在是使用opencv可能遇到的问题,比如矩形轮廓怎么画,用opencv提取出轮廓之后,怎 阅读全文
posted @ 2016-06-23 21:32 phil_chow 阅读(2564) 评论(0) 推荐(4) 编辑
摘要: 看官方文档: In [10]: help(np.nonzero)Help on function nonzero in module numpy.core.fromnumeric: nonzero(a) Return the indices of the elements that are non- 阅读全文
posted @ 2016-04-20 13:29 phil_chow 阅读(1225) 评论(0) 推荐(0) 编辑
摘要: Canopy: Downloads - Enthought Scientific Computing Solutions一键安装python数据分析开发平台,预设核心科学分析库诸如:scipy, numpy,. pandas, matplotlib, Ipython等等。这个软件有免费版和几种不同的 阅读全文
posted @ 2016-04-02 13:16 phil_chow 阅读(471) 评论(0) 推荐(1) 编辑
摘要: 原始图片是这样: 经过处理之后的效果是这样: 代码如下: ​ 阅读全文
posted @ 2016-03-15 12:47 phil_chow 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 继之前爬取知乎用户之后,目前爬取到3.5万条数据,但是在这些数据中有一些是没有完整填写用户信息的。检索数据库中地理位置不为空的用户,进行地域统计。 其中的shengshi.txt是省市的列表,文件如下: 生成result2.txt文件结构如下,为何要生成如此结构的文件,下文有用 使用echart网站 阅读全文
posted @ 2015-12-23 16:31 phil_chow 阅读(703) 评论(0) 推荐(0) 编辑
摘要: 这个爬虫程序有别于之前写的两个,这个是自己写的,使用的是python库requests、redis、lxml。 一共有三个文件分别是config.ini用户名和cookie配置文件,zhihusp.py爬取用户名,get-info.py爬取用户其他信息。 下面分别将三个文件贴出来,两个python文 阅读全文
posted @ 2015-12-08 20:56 phil_chow 阅读(2495) 评论(0) 推荐(0) 编辑
摘要: 首先新建一个Scrapy项目,如果不知道项目怎么建的,请看前面爬取豆瓣TOP电影那篇文章。 目录结构如下: 因为我只是爬取问题,所以item里面只有一个title项,直接上zhihu_spider.py代码: 然后从apart.txt文件里面取出这些问题,将这些问题分词,对分出的词计数。 此处用到两 阅读全文
posted @ 2015-12-07 21:55 phil_chow 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 1、数据分析总的来说是:认清问题,解决问题 2、实验,(星巴克咖啡店),实验控制组 3、最优化策略;橡皮鸭和橡皮鱼 4、数据图形化;重要的散点图 5、假设检验,podphone手机明天或下个月会发布么?最可能什么时候发布。为每个猜想加权,比较。 6、贝叶斯统计:蜥蜴流感 7、主观概率,石油投资,利用 阅读全文
posted @ 2015-10-17 17:29 phil_chow 阅读(348) 评论(0) 推荐(0) 编辑