摘要:
本篇将谈一些scrapy的进阶内容,帮助大家能更熟悉这个框架。 1. 站点选取 现在的大网站基本除了pc端都会有移动端,所以需要先确定爬哪个。 比如爬新浪微博,有以下几个选择: 1. www.weibo.com,主站 2. www.weibo.cn,简化版 3. m.weibo.cn,移动版 上面三 阅读全文
摘要:
从接触爬虫到现在也有一年半了,在这里总结一下一个新人入门爬虫需要了解的种种。作为实用向入门教程,我不会讲太多细枝末节的东西。最重要的就是能爬到东西不是吗? 那好,作为一个爬虫新人,要爬一个网站时,应该怎么开始呢? 首先,确定要爬的内容。是要整个网站的所有内容还是只是部分?需要的爬取的数据在网页源代码 阅读全文
摘要:
本篇从实际出发,展示如何用网页爬虫。并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程 所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序。正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:)。通常适用于需要大量网页信息的场合。 爬取网页的流程为:访问初始url 获得返回的网 阅读全文
摘要:
本篇将从实际例子出发,展示如何使用api爬取twitter的数据。 1. 创建APP 进入[https://apps.twitter.com/][1],创建自己的app。只有有了app才可以访问twitter的api并抓取数据。只需创建最简单的app即可,各种信息随意填写,并不需要进一步的认证,我们 阅读全文
摘要:
本篇将介绍Neo4j的安装,入门,和自己使用了一段时间后发现的优点缺点,争取简洁和实用。 如果你是第一次接触Neo4j,并且之前也都没接触过类似的Graph Database的话,建议先浏览一下我之前的一篇博客:[为什么选择图形数据库,为什么选择Neo4j?][1]。毕竟应该在做一件事之前要想清楚为 阅读全文
摘要:
最近在抓取一些社交网站的数据,抓下来的数据用MySql存储。问我为什么用MySql,那自然是入门简单,并且我当时只熟悉MySql。可是,随着数据量越来越大,有一个问题始终困扰着我,那就是 社交关系的存储 。 就以新浪微博举例,一个大V少则十几万,多则几千万的粉丝,这些关注关系要怎么存呢?在MySql 阅读全文
摘要:
本人系统win7专业版64位。 从5月底开始就时不时有蓝屏发生,而且可以说是没有任何征兆就“啪”的一下蓝了... 有时候是隔个四五天蓝屏一次,有时候一天都能蓝好几次,实在是让人恼火。 从第一次蓝屏就开始寻找原因,直到一个月前才查到元凶,竟然就是Networx。作为一个蓝屏小白,我做了挺多尝试才最终找 阅读全文
摘要:
本文介绍HITS算法的相关内容。 1.算法来源 2.算法原理 3.算法证明 4.算法实现 4.1 基于迭代法的简单实现 4.2 MapReduce实现 5.HITS算法的缺点 6.写在最后 参考资料 1. 算法来源 1999年,Jon Kleinberg 提出了HITS算法。作为几乎是与PageRa 阅读全文
摘要:
在我的一篇博客 "PageRank" 中,在5.1 算法实现中简单实现部分原本是有一个错误的。这个错误也体现出我当时对PageRank算法有理解上的偏差。 这是个什么样的错误呢?是这样的: 简单实现中计算每个网页的PR值时使用的是最原始的方法,即下面的这个公式: $$ PR(p_{i}) = \al 阅读全文
摘要:
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法的简单实现 5.2 MapReduce实现 6.PageRank算法的缺点 7.写在最后 参考资料 阅读全文
摘要:
问题描述:现在有n个文本文件,使用MapReduce的方法实现词频统计。 附上统计词频的关键代码,首先是一个通用的MapReduce模块: 然后需要针对词频统计这个实际问题写好自己的mapper方法和reducer方法: 用3个文本文件进行测试: text\a.tex: The quick brow 阅读全文