nanpo - 博客园

2014年2月26日

摘要：新的一年，生活和工作都发生了很多变化，进入了某土豪公司，也从城北搬到了城南，中间大大小小的事情都需要自己打点，但也忙的不亦乐乎，导致中间又断更了几个月，现在终于稳定下来，有时间写博客了。从一开始工作就陆陆续续接触到各种机器学习算法，又接触到了与其相关的其他方向，深思熟虑后决定调整方向，于是跳槽后工作内容从搜索转为了数据挖掘，处理的数据量也有了若干个数量级的飞跃，真爽。年前看完了cousra上的斯坦福机器学习课程，感觉还不够深入，于是下载了更详细的讲义来看，所以后续会做一些关于基本的机器学习算法的笔记；工作开始就没再像学习c一样的深入学习过哪一门语言，python和java都是随用随学，写码效率阅读全文

posted @ 2014-02-26 23:02 nanpo 阅读(183) 评论(1) 推荐(0) 编辑

2013年9月3日

leetcode: String to Integer (atoi)

摘要：想要一次性想到所有的规则可有点难度，尤其是溢出的处理。 public int atoi(String str) { // Start typing your Java solution below // DO NOT write main() function if(str.length() == 0) return 0; int i=0; int flag = 1; long tmp = 0; while(str.charAt(i)==' ') ... 阅读全文

posted @ 2013-09-03 18:36 nanpo 阅读(870) 评论(1) 推荐(0) 编辑

2013年8月4日

翻译：Getting Started With Python For Data Science

摘要：原文链接：http://www.kaggle.com/wiki/GettingStartedWithPythonForDataScience这篇教程假设读者能够使用python编程，但并不需要数据科学，机器学习或预测模型的知识。在实践中学习是一种黑客品质。所有这篇教程中的代码都可以在github上找到。你也许会遇到不熟悉的术语，但是不会对你完成教程形成阻碍。到最后，你可能不会加深对数据科学的理解，但是你会建立起一个环境，在那里你可以轻松的操作不同的数据科学工具甚至在kaggle比赛中得到不错的成绩。更重要的是，你将有一个可以实验并学习更多数据科学知识的环境。下面是你将会学习的内容：怎样安装流行阅读全文

posted @ 2013-08-04 15:46 nanpo 阅读(1196) 评论(0) 推荐(0) 编辑

2013年7月30日

面试题：寻找字符串中由2种字符组成的最长连续子串

摘要：这是前段时间遇到的一道面试题，寻找字符串中由任意2种字符组成的最长连续子串，例如输入为“abababccef”，输出为6，要找的子串为“ababab"。暴力的一点的解法是从每个字符串开始向前遍历，找到符合条件的最小下标值，再计算长度。 public static int findSubString(String str) { if (str.length() = 0 && str.charAt(j) == cur_char) j--; if (j >= 0) { new_char = str.... 阅读全文

posted @ 2013-07-30 21:30 nanpo 阅读(1026) 评论(0) 推荐(0) 编辑

2013年7月27日

leetcode: Symmetric Tree

摘要：判断一棵树是否对称，如果对称，中序遍历的结果一定也是对称的。 public boolean isSymmetric(TreeNode root) { // Start typing your Java solution below // DO NOT write main() function if(root == null) return true; ArrayList ret = new ArrayList(); inorder(root, ret); for(int i=0, j=r... 阅读全文

posted @ 2013-07-27 17:58 nanpo 阅读(2758) 评论(2) 推荐(0) 编辑

2012年11月4日

常用的数据标准化方法

摘要：处理数据时经常会遇到比较两个不同数据集的情况（比如比较具有不同教育水平地区学生的成绩，比较不同网页的受欢迎程度），这时就需要先将数据标准化，再进行比较。数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。网站数据分析上有一篇很好的帖子《数据的标准化》，里面详细分析了归一化（可以看成是特殊的数据标准化）常用的四种方法：min-max标准化log函数转换：百度知道里确实有很多人说用log10归一化。。。atan函数转换z-score标阅读全文

posted @ 2012-11-04 23:14 nanpo 阅读(6567) 评论(0) 推荐(0) 编辑

2012年10月19日

lucene vs zoie

摘要：前段时间使用zoie的perf包内的性能测试代码对lucene和zoie的实时搜索部分做了对比测试，结果出乎我意料，从数据上看，lucene比zoie更适合于一般实时搜索的场景。 zoie的perf从四个方面来评测：search lancenty, indexing lancenty, indexing event rate, indexing event size。图1为zoie的评测结果，图... 阅读全文

posted @ 2012-10-19 22:28 nanpo 阅读(897) 评论(0) 推荐(0) 编辑

2012年9月15日

实时搜索的五个开源解决方案

摘要：实时搜索是去年提的比较多的一个功能，今年似乎很少再有人去以这个为噱头宣传了，估计各家公司都实现了自己的实时搜索。目前常见的做法就是索引分两份，内存一份，硬盘一份，所有在线的更改索引操作都在内存中进行，定时或者定量的将内存中的数据合并到硬盘上。这篇ppt有关于实时搜索实现难点的更详细介绍：http://www.slideshare.net/Leechael/ss-4836416开源实时搜索引擎的现状是轻量级的项目无法应对大数据，而能够应付大数据的解决方案学习成本比较高，有时学习曲线会异常陡峭。使用redis：Auto Complete with Redis虽然是在讲auto complete，但阅读全文

posted @ 2012-09-15 22:20 nanpo 阅读(1067) 评论(0) 推荐(0) 编辑

2012年9月1日

使用lucene实现社会化搜索

摘要：百度百科上对社会化搜索的定义是“社会化搜索的意思就是通过搜索形成一个有共同爱好的人际圈子，又通过搜索每个人的爱好和收藏为用户提供一个更为准确的信息。”前半句说明社会化搜索一定依附于某一个社交平台，有平台才能形成圈子，才能有社交数据来作为社会化搜索的基础；后半句更确切的说，就是个性化搜索，根据用户个性化数据来调整排序的规则，所以不同的人会看到不同的内容。社会化搜索按照功能可以划分为“过滤”搜索和... 阅读全文

posted @ 2012-09-01 19:54 nanpo 阅读(272) 评论(0) 推荐(0) 编辑

2012年8月16日

lucene入门资源汇总

摘要：使用lucene开发了一段时间，感觉lucene的学习资源不是太少，而是太多，网上尽是各个版本的各种代码，好多已经不再使用了，在这里列出一些比较靠谱的入门资源。《lucene in action》：最好的入门书籍，看完就可以完成一般网站的搜索开发。lucene in 5 minutes : 如名字一样，是个教人如何快速上手lucene的网站，感觉和lucene的demo差不多。lucene文档：研究源码必备。LucidWorks：一家提供lucene相关服务的公司，亮点是“Out of the 37 Core Committers to the Apache Lucene/Solr proj 阅读全文

posted @ 2012-08-16 21:40 nanpo 阅读(211) 评论(0) 推荐(0) 编辑

数据矿工

bring order to the world