摘要: 新的一年,生活和工作都发生了很多变化,进入了某土豪公司,也从城北搬到了城南,中间大大小小的事情都需要自己打点,但也忙的不亦乐乎,导致中间又断更了几个月,现在终于稳定下来,有时间写博客了。从一开始工作就陆陆续续接触到各种机器学习算法,又接触到了与其相关的其他方向,深思熟虑后决定调整方向,于是跳槽后工作内容从搜索转为了数据挖掘,处理的数据量也有了若干个数量级的飞跃,真爽。年前看完了cousra上的斯坦福机器学习课程,感觉还不够深入,于是下载了更详细的讲义来看,所以后续会做一些关于基本的机器学习算法的笔记;工作开始就没再像学习c一样的深入学习过哪一门语言,python和java都是随用随学,写码效率 阅读全文
posted @ 2014-02-26 23:02 nanpo 阅读(183) 评论(1) 推荐(0) 编辑
摘要: 想要一次性想到所有的规则可有点难度,尤其是溢出的处理。 public int atoi(String str) { // Start typing your Java solution below // DO NOT write main() function if(str.length() == 0) return 0; int i=0; int flag = 1; long tmp = 0; while(str.charAt(i)==' ') ... 阅读全文
posted @ 2013-09-03 18:36 nanpo 阅读(870) 评论(1) 推荐(0) 编辑
摘要: 原文链接:http://www.kaggle.com/wiki/GettingStartedWithPythonForDataScience这篇教程假设读者能够使用python编程,但并不需要数据科学,机器学习或预测模型的知识。在实践中学习是一种黑客品质。所有这篇教程中的代码都可以在github上找到。你也许会遇到不熟悉的术语,但是不会对你完成教程形成阻碍。到最后,你可能不会加深对数据科学的理解,但是你会建立起一个环境,在那里你可以轻松的操作不同的数据科学工具甚至在kaggle比赛中得到不错的成绩。更重要的是,你将有一个可以实验并学习更多数据科学知识的环境。下面是你将会学习的内容:怎样安装流行 阅读全文
posted @ 2013-08-04 15:46 nanpo 阅读(1196) 评论(0) 推荐(0) 编辑
摘要: 这是前段时间遇到的一道面试题,寻找字符串中由任意2种字符组成的最长连续子串,例如输入为“abababccef”,输出为6,要找的子串为“ababab"。暴力的一点的解法是从每个字符串开始向前遍历,找到符合条件的最小下标值,再计算长度。 public static int findSubString(String str) { if (str.length() = 0 && str.charAt(j) == cur_char) j--; if (j >= 0) { new_char = str.... 阅读全文
posted @ 2013-07-30 21:30 nanpo 阅读(1026) 评论(0) 推荐(0) 编辑
摘要: 判断一棵树是否对称,如果对称,中序遍历的结果一定也是对称的。 public boolean isSymmetric(TreeNode root) { // Start typing your Java solution below // DO NOT write main() function if(root == null) return true; ArrayList ret = new ArrayList(); inorder(root, ret); for(int i=0, j=r... 阅读全文
posted @ 2013-07-27 17:58 nanpo 阅读(2758) 评论(2) 推荐(0) 编辑
摘要: 处理数据时经常会遇到比较两个不同数据集的情况(比如比较具有不同教育水平地区学生的成绩,比较不同网页的受欢迎程度),这时就需要先将数据标准化,再进行比较。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。网站数据分析上有一篇很好的帖子《数据的标准化》,里面详细分析了归一化(可以看成是特殊的数据标准化)常用的四种方法:min-max标准化log函数转换:百度知道里确实有很多人说用log10归一化。。。atan函数转换z-score标 阅读全文
posted @ 2012-11-04 23:14 nanpo 阅读(6567) 评论(0) 推荐(0) 编辑
摘要: 前段时间使用zoie的perf包内的性能测试代码对lucene和zoie的实时搜索部分做了对比测试,结果出乎我意料,从数据上看,lucene比zoie更适合于一般实时搜索的场景。 zoie的perf从四个方面来评测:search lancenty, indexing lancenty, indexing event rate, indexing event size。图1为zoie的评测结果,图... 阅读全文
posted @ 2012-10-19 22:28 nanpo 阅读(897) 评论(0) 推荐(0) 编辑
摘要: 实时搜索是去年提的比较多的一个功能,今年似乎很少再有人去以这个为噱头宣传了,估计各家公司都实现了自己的实时搜索。目前常见的做法就是索引分两份,内存一份,硬盘一份,所有在线的更改索引操作都在内存中进行,定时或者定量的将内存中的数据合并到硬盘上。这篇ppt有关于实时搜索实现难点的更详细介绍:http://www.slideshare.net/Leechael/ss-4836416开源实时搜索引擎的现状是轻量级的项目无法应对大数据,而能够应付大数据的解决方案学习成本比较高,有时学习曲线会异常陡峭。使用redis:Auto Complete with Redis虽然是在讲auto complete,但 阅读全文
posted @ 2012-09-15 22:20 nanpo 阅读(1067) 评论(0) 推荐(0) 编辑
摘要: 百度百科上对社会化搜索的定义是“社会化搜索的意思就是通过搜索形成一个有共同爱好的人际圈子,又通过搜索每个人的爱好和收藏为用户提供一个更为准确的信息。”前半句说明社会化搜索一定依附于某一个社交平台,有平台才能形成圈子,才能有社交数据来作为社会化搜索的基础;后半句更确切的说,就是个性化搜索,根据用户个性化数据来调整排序的规则,所以不同的人会看到不同的内容。 社会化搜索按照功能可以划分为“过滤”搜索和... 阅读全文
posted @ 2012-09-01 19:54 nanpo 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 使用lucene开发了一段时间,感觉lucene的学习资源不是太少,而是太多,网上尽是各个版本的各种代码,好多已经不再使用了,在这里列出一些比较靠谱的入门资源。《lucene in action》:最好的入门书籍,看完就可以完成一般网站的搜索开发。lucene in 5 minutes : 如名字一样,是个教人如何快速上手lucene的网站,感觉和lucene的demo差不多。lucene文档 :研究源码必备。LucidWorks:一家提供lucene相关服务的公司,亮点是“Out of the 37 Core Committers to the Apache Lucene/Solr proj 阅读全文
posted @ 2012-08-16 21:40 nanpo 阅读(211) 评论(0) 推荐(0) 编辑