摘要:
字符串匹配算法——Sunday 听到字符串匹配,我们第一想到的是经典的KMP算法,为什么会是它,因为它实在是太经典了。但是我们今天要讲的是另一个算法,Sunday算法,比KMP还要快的字符串匹配。 假设 匹配串 为$\quad$abcabdaababcbab 模式串 为$\quad$babcb 设匹 阅读全文
摘要:
Git Learning 创建本地版本库 $ git init 版本操作 新增文件,提交 $ git add <filename> $ git commit -m "some hints" 查看日志 # 一行显示log信息 $ git log --pretty=oneline 版本退回 # 退回到上 阅读全文
摘要:
废话不多说,先上图: 此程序的主要目的,就是将碑文图片上的汉字截取出来,并且将文字周围多余边距去除,完成此后模式识别的先前准备工作。 用的是opencv的库,在处理噪音和二值化处理的时候方便一点。 其中涉及了一些在是使用opencv可能遇到的问题,比如矩形轮廓怎么画,用opencv提取出轮廓之后,怎 阅读全文
摘要:
看官方文档: In [10]: help(np.nonzero)Help on function nonzero in module numpy.core.fromnumeric: nonzero(a) Return the indices of the elements that are non- 阅读全文
摘要:
Canopy: Downloads - Enthought Scientific Computing Solutions一键安装python数据分析开发平台,预设核心科学分析库诸如:scipy, numpy,. pandas, matplotlib, Ipython等等。这个软件有免费版和几种不同的 阅读全文
摘要:
原始图片是这样: 经过处理之后的效果是这样: 代码如下: 阅读全文
摘要:
继之前爬取知乎用户之后,目前爬取到3.5万条数据,但是在这些数据中有一些是没有完整填写用户信息的。检索数据库中地理位置不为空的用户,进行地域统计。 其中的shengshi.txt是省市的列表,文件如下: 生成result2.txt文件结构如下,为何要生成如此结构的文件,下文有用 使用echart网站 阅读全文
摘要:
这个爬虫程序有别于之前写的两个,这个是自己写的,使用的是python库requests、redis、lxml。 一共有三个文件分别是config.ini用户名和cookie配置文件,zhihusp.py爬取用户名,get-info.py爬取用户其他信息。 下面分别将三个文件贴出来,两个python文 阅读全文
摘要:
首先新建一个Scrapy项目,如果不知道项目怎么建的,请看前面爬取豆瓣TOP电影那篇文章。 目录结构如下: 因为我只是爬取问题,所以item里面只有一个title项,直接上zhihu_spider.py代码: 然后从apart.txt文件里面取出这些问题,将这些问题分词,对分出的词计数。 此处用到两 阅读全文
摘要:
1、数据分析总的来说是:认清问题,解决问题 2、实验,(星巴克咖啡店),实验控制组 3、最优化策略;橡皮鸭和橡皮鱼 4、数据图形化;重要的散点图 5、假设检验,podphone手机明天或下个月会发布么?最可能什么时候发布。为每个猜想加权,比较。 6、贝叶斯统计:蜥蜴流感 7、主观概率,石油投资,利用 阅读全文