摘要:
本文介绍用python实现一个简易数据库,介绍列式存储和多级索引建立过程,以及压缩文件的处理。 阅读全文
摘要:
折半查找也就是二叉查找,其查找时间复杂度为O(logn),比顺序查找的效率高得多,唯一的要求就是待查表已经有序。很多时候我们需要在顺序表中进行范围查找,如在data中找小于某个值得数。 阅读全文
摘要:
字符串分割函数、字符串替换函数、大写转小写 阅读全文
摘要:
插入排序,顾名思义就是寻找适当的位置,插入记录,使得整个表变成有序。插入排序有直接插入排序、折半插入排序、2路插入排序、希尔排序等,这边文章主要介绍直接插入排序、2路插入排序和希尔排序。 阅读全文
摘要:
KNN是k nearest neighbor 的简称,即k最邻近,就是找k个最近的实例投票决定新实例的类标。KNN是一种基于实例的学习算法,它不同于贝叶斯、决策树等算法,KNN不需要训练,当有新的实例出现时,直接在训练数据集中找k个最近的实例,把这个新的实例分配给这k个训练实例中实例数最多类。KNN不需要训练过程,在类标边界比较整齐的情况下分类的准确率也很高。KNN算法需要人为决定K的取值,即找几个最近的实例,k值不同,分类结果的结果也会不同。 阅读全文
摘要:
本文主要讲述django的模板和模板变量,并实现了一个站点访问计数器,显示访问次数和访问时间,揭开了django的模板的奥妙面纱。 阅读全文
摘要:
本文主要讲述django的第一个项目,Hello World 阅读全文
摘要:
本文主要讲述python时间和日期管理,几种时间之间的转化,time,ctime,datetime,date,calendar.时间的解析和格式化,时间与日期的结合,日历设置,求重复的日程安排等 阅读全文
摘要:
本文主要讲述用soaplib搭建一个webservice服务 阅读全文
摘要:
做数据处理时经常会用读这样的文本文件:
1,10,1,11,1,13,1,12,1,1,9\n
2,11,2,13,2,10,2,12,2,1,9\n
3,12,3,11,3,13,3,10,3,1,9\n
4,10,4,11,4,1,4,13,4,12,9\n
需要将文件以vector类型读入内存 阅读全文
摘要:
《hadoop权威指南》的天气数据可以在ftp://ftp3.ncdc.noaa.gov/pub/data/noaa下载,在网上看到这个数据好开心,打开ftp发现个问题,呀呀,这么多文件啊,我一个个去点另存为,得点到啥时候啊,迅雷应该有批量下载,只是我没找到,估计是我浏览器把迅雷禁掉了,干脆自己用python写一个实现下载好了,网上早了一下,发现很简单啊 阅读全文
摘要:
本文主要介绍什么是大段模式、小端模式,如何判断自己的电脑是大端模式还是小端模式。 阅读全文
摘要:
给定一个数列A,试将其变为奇数在左偶数在右的形式。例如A=[12,8,7,5,6,11],则变换后的A'=[11,5,7,8,6,12].只需要先奇数后偶数即可,不需要排序。 阅读全文
摘要:
这曾经是一个面试题,将一行英文句子单词顺序反转,如输入"feng i love you!",输出为"you! love i feng",标点符号当做普通字符处理,这个题目可以在九度上在线提交http://ac.jobdu.com/problem.php?cid=1039&pid=25。 这里提供一个简单的思路,先将整个英文句子对称反转,"abc de"反转成"ed cba",再将其中的每个单词对称反转一次得到"de abc",时间复杂度o(n),空间复杂度o(1)。下面证明一下为什么这样 阅读全文
摘要:
数据挖掘几个经典算法,以后有时间再对每一个算法细说。1、关联规则挖掘之Apori算法 Apori是挖掘布尔关联规则频繁项集的算法。2、分类之Bayes方法3、分类之k最近邻(KNN)方法 KNN算法的基本思想是,对每一个记录,以一定的标准圈取k个记录,利用这k个记录所在的类别进行投票进行分类。4、聚类之k-means方法 k-means是一个无监督的自动聚类算法,它的思想就是把记录分配到离该记录最近的类别中心所在的类别中去。 阅读全文
摘要:
java euquls方法 阅读全文
摘要:
java中只有一种参数传递方式:传值;这点和c++不一样,c++中有传值和引用两种方式。虽然java只有传值这 一种传递方式,但是根据参数类型的不同,函数对参数的影响也会不一样。可以这么说:形参是实参的一份拷贝, 当参数类型是基本数据类型时,对形参的处理不影响实参,也就是你想通过形参交换两个实参是行不通的;当形参 是对象时(事实上,是对象的引用),形参和实参指向的是同一个对象,所以通过形参对对象进行操作会影响实参 所指向的对象。我们看看下面的swapList函数 //交换两个list对象 public static void swapList(List<Integer> listA 阅读全文
摘要:
做NLPproject时需要一个成语库,我需要的是纯成语,网上找的都是有详细解释的。于是自己写了一个爬成语的python程序。1、首先找到一个在线成语网站 我选的网站是http://chengyu.itlearner.com/,选择它的原因是它把不同开头字母的成语分开,不同的字母和页所在的URL不同,是静态网页,比如A开头的第一页的链接是:http://chengyu.itlearner.com/list/A_1.html,所以我只要遍历各个字母开头的每页就可以了。2、查看网页结构,定义正则式 看一下要抓的成语的标签有什么特点,查看源码,可以发现要抓的成语都在标签中,如:安如磐石,成语事实.. 阅读全文
摘要:
学习需要,要安装python的一个NLP模块nltk安装指南和安装文件都在这http://nltk.org/install.html,过程如下Source installation (for 32-bit or 64-bit Windows)Install Python: http://www.python.org/download/releases/2.7.3/Install Numpy (optional): http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpyInstall Setuptools: http://pypi.python.org/ 阅读全文
摘要:
如果Eclipse花费了很长的时间calculating requirements and dependencies(计算需求和依赖性 )这个问题通常就是在点击安装之后显示“Calculating requirements and dependencies”,然后进度条不动,调出系统监视器会发现压根儿没下载流量,解决方法:1、把“Contact all update sites during install to find required software”(寻找指定的软件前先访问所有更新站点)前面的勾去掉,然后f返回重新安装,这样之后问题迎刃而解2、如果从本地安装,断开网络,可解决该问题。 阅读全文