文章档案「2013年10月」 - Rollen Holt

程序员面试什么最重要？

摘要：文章转载自：http://www.kuqin.com/job/20130521/334444.html程序员面试一直是社区乐于讨论的热门话题。我自己从06年实习以来，先后经历了4家软件公司，全部是外企，其中有世界500强的通信企业，有从事期权期货交易的欧洲中等规模的金融公司，也有为大型汽车制造商开发Android智能汽车的新兴公司。跨入IT行业以来，我在求职过程中经历过多次面试，最近两年也有过多次面试别人的经验。我感觉现在到了对这个问题发表自己看法的时候，这篇文章是我站在面试官角度对于程序员面试问题的一个阶段性反思和经验总结。目标相信和不少朋友一样，有了几年工作经验成为Senior后就开始阅读全文

posted @ 2013-10-28 23:15 Rollen Holt 阅读(1135) 评论(3) 推荐(3)

给IT新人的15个建议：苦逼程序员的辛酸反省与总结

摘要：文章转载自：http://blog.csdn.net/pozen/article/details/7583820很多人表面上看着老实巴交的，实际上内心比谁都好强、自负、虚荣、甚至阴险。工作中见的多了，也就习惯了。有一些人，什么事都写在脸上，表面上经常得罪人，甚至让人讨厌。但是他们所表现的又未必不是真性情。我相信大多数人都看过《豪门夜宴》这部香港老电影。张学友、梁朝伟演的拍马屁的场景太有意思了，其中有这样一段：当两马屁精帮老板说出主意，老板马上叫停，然后拍一下脑门：“哦，我想到了。”，把别人的idea当成自己的说出来。我在工作中还真不止一次遇到这种事，我提出来的想法老被别人拿来当作自己的原创，当阅读全文

posted @ 2013-10-28 23:14 Rollen Holt 阅读(561) 评论(0) 推荐(0)

漫话中文自动分词和语义识别（下）：句法结构和语义结构

摘要：转自：http://www.matrix67.com/blog/archives/4870这篇文章是漫话中文分词算法的续篇。在这里，我们将紧接着上一篇文章的内容继续探讨下去：如果计算机可以对一句话进行自动分词，它还能进一步整理句子的结构，甚至理解句子的意思吗？这两篇文章的关系十分紧密，因此，我把前一篇文章改名为了《漫话中文自动分词和语义识别（上）》，这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了，在这里我想把它们写下来，和更多的人一同分享。什么叫做句法结构呢？让我们来看一些例子。“白天鹅在水中游”，这句话是有歧义的，它可能指的是“白天有一只鹅在水中游”，也可能指的是阅读全文

posted @ 2013-10-21 23:28 Rollen Holt 阅读(809) 评论(1) 推荐(0)

TF-IDF与余弦相似性的应用（三）：自动摘要

摘要：转自：http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通过词频，对文章进行自动摘要（Automatic summarization）。如果能从3000字的文章，提炼出150字的摘要，就可以为读者节省大量阅读时间。由人完成的摘要叫”人工摘要”，由机器完成的就叫”自动摘要”。许多网站都需要它，比如论文阅读全文

posted @ 2013-10-21 23:27 Rollen Holt 阅读(447) 评论(0) 推荐(0)

漫话中文自动分词和语义识别（上）：中文分词算法

摘要：转自：http://www.matrix67.com/blog/archives/4212记得第一次了解中文分词算法是在Google 黑板报上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进行研究，期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／的”？阅读全文

posted @ 2013-10-21 23:25 Rollen Holt 阅读(700) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（二）：找出相似文章

摘要：转自：http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次，我用TF-IDF 算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，”Google 新闻”在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到“余弦相似性”（cosine similiarity）。下面，我举一个例子来说明，什么是”余弦相似性”。为了简单起见，我们先从句子着手。句子A：我喜欢看电视，不喜欢看电影。句子B：我不喜欢看电视，也不喜欢看电影。请问怎样才能计算上面两阅读全文

posted @ 2013-10-21 23:24 Rollen Holt 阅读(652) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（一）：自动提取关键词

摘要：转自：http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用 10 分钟就可以理解，这就是我今天想要介绍的TF-IDF算法。让我们从一个实例开始讲起。假定现在有一篇长文《中阅读全文

posted @ 2013-10-21 23:23 Rollen Holt 阅读(386) 评论(0) 推荐(0)

网站统计中的数据收集原理及实现

摘要：网站数据统计分析工具是网站站长和运营人员经常使用的一种工具，比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理，并一步一步实际搭建一个实际的数据收集系统。数据收集原理分析简单来说，网站统计分析工具需要收集到用户浏览目标网站的行为（如打开某网页、点击某按钮、将商品加入购物车等）及行为附加数据（如某下单行为产生的订单金额等）。早期的网站统计往往只收集一种用户行为：页面的打开。而后用户在页面中的行为均无法收集。这种收集策略能满足基本的流量分析、来源分析、内容分析及阅读全文

posted @ 2013-10-21 23:20 Rollen Holt 阅读(451) 评论(0) 推荐(0)

被遗忘的博客号角声在远方又吹响/何时回故乡/又怎么回故乡/曾经的你现在又怎样/是谁的新娘/为谁做衣裳/ <br/>火跳动着绝望/谁在低声吟唱/说遗忘者的哀伤 /用战斗证明希望

10 2013 档案

About

被遗忘的博客 号角声在远方又吹响/何时回故乡/又怎么回故乡/曾经的你现在又怎样/是谁的新娘/为谁做衣裳/ <br/>火跳动着绝望/谁在低声吟唱/说遗忘者的哀伤 /用战斗证明希望

10 2013 档案

About

被遗忘的博客号角声在远方又吹响/何时回故乡/又怎么回故乡/曾经的你现在又怎样/是谁的新娘/为谁做衣裳/ <br/>火跳动着绝望/谁在低声吟唱/说遗忘者的哀伤 /用战斗证明希望