2012 年 11月随笔档案 - 一线码农

6天通吃树结构—— 第五天 Trie树

摘要：很有段时间没写此系列了，今天我们来说Trie树，Trie树的名字有很多，比如字典树，前缀树等等。一：概念下面我们有and,as,at,cn,com这些关键词，那么如何构建trie树呢？从上面的图中，我们或多或少的可以发现一些好玩的特性。第一：根节点不包含字符，除根节点外的每一个子节点都包含一个字符。第二：从根节点到某一节点，路径上经过的字符连接起来，就是该节点对应的字符串。第三：每个单词的公共前缀作为一个字符节点保存。二：使用范围既然学Trie树，我们肯定要知道这玩意是用来干嘛的。第一：词频统计。可能有人要说了，词频统计简单啊，一个hash或者一个... 阅读全文

posted @ 2012-11-25 22:30 一线码农阅读(112661) 评论(17) 推荐(40) 编辑

经典算法题每日演练——第六题协同推荐SlopeOne 算法

摘要：相信大家对如下的Category都很熟悉，很多网站都有类似如下的功能，“商品推荐”,"猜你喜欢“，在实体店中我们有导购来为我们服务，在网络上我们需要同样的一种替代物，如果简简单单的在数据库里面去捞，去比较，几乎是完成不了的,这时我们就需要一种协同推荐算法，来高效的推荐浏览者喜欢的商品。一：概念 SlopeOne的思想很简单，就是用均值化的思想来掩盖个体的打分差异，举个例子说明一下：在这个图中，系统该如何计算“王五“对”电冰箱“的打分值呢？刚才我们也说了，slopeone是采用均值化的思想,也就是：R王五=4-{[(5-10)+(4-5)]/2}=7 。下面我们看看多于两项的商品，如. 阅读全文

posted @ 2012-11-22 14:43 一线码农阅读(11162) 评论(12) 推荐(6) 编辑

经典算法题每日演练——第五题字符串相似度

摘要：这篇我们看看最长公共子序列的另一个版本，求字符串相似度(编辑距离)，我也说过了，这是一个非常实用的算法，在DNA对比，网页聚类等方面都有用武之地。一：概念对于两个字符串A和B，通过基本的增删改将字符串A改成B，或者将B改成A，在改变的过程中我们使用的最少步骤称之为“编辑距离”。比如如下的字符串：我们通过种种操作，痉挛之后编辑距离为3，不知道你看出来了没有？二：解析可能大家觉得有点复杂，不好理解，我们试着把这个大问题拆分掉，将"字符串 vs 字符串“，分解成”字符 vs 字符串“，再分解成”字符 vs 字符“。<1> ”字符“vs”字符“ 这种情况是最简单的了，比如”A 阅读全文

posted @ 2012-11-11 23:45 一线码农阅读(11716) 评论(4) 推荐(7) 编辑

经典算法题每日演练——第四题最长公共子序列

摘要：一：作用最长公共子序列的问题常用于解决字符串的相似度，是一个非常实用的算法，作为码农，此算法是我们的必备基本功。二：概念举个例子，cnblogs这个字符串中子序列有多少个呢？很显然有27个，比如其中的cb,cgs等等都是其子序列，我们可以看出子序列不见得一定是连续的，连续的那是子串。我想大家已经了解了子序列的概念，那现在可以延伸到两个字符串了，那么大家能够看出：cnblogs和belong的公共子序列吗？在你找出的公共子序列中，你能找出最长的公共子序列吗？从图中我们看到了最长公共子序列为blog，仔细想想我们可以发现其实最长公共子序列的个数不是唯一的，可能会有两个以上，但是长度... 阅读全文

posted @ 2012-11-11 00:55 一线码农阅读(75869) 评论(20) 推荐(29) 编辑

玩玩小爬虫——抓取时的几个小细节

摘要：这一篇我们聊聊在页面抓取时应该注意到的几个问题。一：网页更新我们知道，一般网页中的信息是不断翻新的，这也要求我们定期的去抓这些新信息，但是这个“定期”该怎么理解，也就是多长时间需要抓一次该页面，其实这个定期也就是页面缓存时间，在页面的缓存时间内我们再次抓取该网页是没有必要的，反而给人家服务器造成压力。就比如说我要抓取博客园首页，首先清空页面缓存，从Last-Modified到Expires，我们可以看到，博客园的缓存时间是2分钟，而且我还能看到当前的服务器时间Date，如果我再次刷新页面的话，这里的Date将会变成下图中If-Modified-Since,然后发送给服务器，判断浏览器... 阅读全文

posted @ 2012-11-08 01:23 一线码农阅读(14358) 评论(19) 推荐(12) 编辑

玩玩小爬虫——抓取动态页面

摘要：在ajax横行的年代，很多网页的内容都是动态加载的，而我们的小爬虫抓取的仅仅是web服务器返回给我们的html，这其中就跳过了js加载的部分，也就是说爬虫抓取的网页是残缺的，不完整的，下面可以看下博客园首页从首页加载中我们看到，在页面呈现后，还会有5个ajax异步请求，在默认的情况下，爬虫是抓取不到这些ajax生成的内容的，这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面，目前内核引擎三足鼎立。Trident：也就是IE内核，WebBrowser就是基于该内核，但是加载性内比较差。Gecko： FF的内核，性能相对Trident较好。WebKit: Safari和Chrome... 阅读全文

posted @ 2012-11-06 00:00 一线码农阅读(36668) 评论(23) 推荐(5) 编辑

玩玩小爬虫——试搭小架构

摘要：第一篇我们做了一个简单的页面广度优先来抓取url，很显然缺点有很多，第一：数据结构都是基于内存的，第二：单线程抓取速度太慢，在实际开发中肯定不会这么做的，起码得要有序列化到硬盘的机制，对于整个爬虫架构来说，构建好爬虫队列相当重要。先上一幅我自己构思的架构图，不是很完善，算是一个雏形吧。一：TODO队列和Visited集合在众多的nosql数据库中，mongodb还是很不错的，这里也就选择它了，做集群，做分片轻而易举。二：中央处理器群架，斗殴都是有带头的，那中央处理器就可以干这样的事情，它的任务很简单，第一：启动时，根据我们定义好的规则将种子页面分发到各个执行服务器。第... 阅读全文

posted @ 2012-11-04 18:51 一线码农阅读(9900) 评论(12) 推荐(12) 编辑

玩玩小爬虫——入门

摘要：前段时间做一个产品，盈利方式也就是卖数据给用户，用wpf包装一下，当然数据提供方是由公司定向爬虫采集的，虽然在实际工作中没有接触这一块，不过私下可以玩一玩，研究研究。既然要抓取网页的内容，肯定我们会有一个startUrl，通过这个startUrl就可以用广度优先的方式遍历整个站点，就如我们学习数据结构中图的遍历一样。既然有“请求网页”和“解析网页”两部分，在代码实现上，我们得需要有两个集合，分别是Todo和Visited集合，为了简单起见，我们从单机版爬虫说起，说起爬虫，就必然逃避不了海量数据，既然是海量数据，那么性能问题不容忽视，在Todo和Visited集合的甄别上，我们选择用Qu... 阅读全文

posted @ 2012-11-02 22:44 一线码农阅读(11980) 评论(20) 推荐(12) 编辑

11 2012 档案

公告

搜索

最新随笔

我的标签

积分与排名

随笔分类 (614)

随笔档案 (621)

文章档案 (12)

阅读排行榜

推荐排行榜

最新评论