刀刀流

2016年10月15日

摘要：本篇将谈一些scrapy的进阶内容，帮助大家能更熟悉这个框架。 1. 站点选取现在的大网站基本除了pc端都会有移动端，所以需要先确定爬哪个。比如爬新浪微博，有以下几个选择： 1. www.weibo.com，主站 2. www.weibo.cn，简化版 3. m.weibo.cn，移动版上面三阅读全文

posted @ 2016-10-15 11:51 刀刀流阅读(11431) 评论(0) 推荐(2)

2016年10月14日

爬虫入门（实用向）

摘要：从接触爬虫到现在也有一年半了，在这里总结一下一个新人入门爬虫需要了解的种种。作为实用向入门教程，我不会讲太多细枝末节的东西。最重要的就是能爬到东西不是吗？那好，作为一个爬虫新人，要爬一个网站时，应该怎么开始呢？首先，确定要爬的内容。是要整个网站的所有内容还是只是部分？需要的爬取的数据在网页源代码阅读全文

posted @ 2016-10-14 16:29 刀刀流阅读(10862) 评论(2) 推荐(4)

2016年10月13日

网页爬虫--scrapy入门

摘要：本篇从实际出发，展示如何用网页爬虫。并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫，就是模拟浏览器的行为访问网站，从而获得网页信息的程序。正因为是程序，所以获得网页的速度可以轻易超过单身多年的手速：)。通常适用于需要大量网页信息的场合。爬取网页的流程为：访问初始url 获得返回的网阅读全文

posted @ 2016-10-13 20:48 刀刀流阅读(5380) 评论(0) 推荐(2)

2016年9月9日

API爬虫--Twitter实战

摘要：本篇将从实际例子出发，展示如何使用api爬取twitter的数据。 1. 创建APP 进入[https://apps.twitter.com/][1]，创建自己的app。只有有了app才可以访问twitter的api并抓取数据。只需创建最简单的app即可，各种信息随意填写，并不需要进一步的认证，我们阅读全文

posted @ 2016-09-09 18:46 刀刀流阅读(20619) 评论(4) 推荐(1)

2016年9月8日

Neo4j安装&入门&一些优缺点

摘要：本篇将介绍Neo4j的安装，入门，和自己使用了一段时间后发现的优点缺点，争取简洁和实用。如果你是第一次接触Neo4j，并且之前也都没接触过类似的Graph Database的话，建议先浏览一下我之前的一篇博客：[为什么选择图形数据库，为什么选择Neo4j？][1]。毕竟应该在做一件事之前要想清楚为阅读全文

posted @ 2016-09-08 15:24 刀刀流阅读(38882) 评论(1) 推荐(2)

2016年9月6日

为什么选择图形数据库，为什么选择Neo4j？

摘要：最近在抓取一些社交网站的数据，抓下来的数据用MySql存储。问我为什么用MySql，那自然是入门简单，并且我当时只熟悉MySql。可是，随着数据量越来越大，有一个问题始终困扰着我，那就是社交关系的存储。就以新浪微博举例，一个大V少则十几万，多则几千万的粉丝，这些关注关系要怎么存呢？在MySql 阅读全文

posted @ 2016-09-06 16:10 刀刀流阅读(37328) 评论(3) 推荐(5)

2016年8月31日

Networx蓝屏问题

摘要：本人系统win7专业版64位。从5月底开始就时不时有蓝屏发生，而且可以说是没有任何征兆就“啪”的一下蓝了... 有时候是隔个四五天蓝屏一次，有时候一天都能蓝好几次，实在是让人恼火。从第一次蓝屏就开始寻找原因，直到一个月前才查到元凶，竟然就是Networx。作为一个蓝屏小白，我做了挺多尝试才最终找阅读全文

posted @ 2016-08-31 11:18 刀刀流阅读(1787) 评论(0) 推荐(0)

2016年8月23日

HITS算法--从原理到实现

摘要：本文介绍HITS算法的相关内容。 1.算法来源 2.算法原理 3.算法证明 4.算法实现 4.1 基于迭代法的简单实现 4.2 MapReduce实现 5.HITS算法的缺点 6.写在最后参考资料 1. 算法来源 1999年，Jon Kleinberg 提出了HITS算法。作为几乎是与PageRa 阅读全文

posted @ 2016-08-23 19:32 刀刀流阅读(16828) 评论(2) 推荐(1)

PageRank简单实现中的一个错误

摘要：在我的一篇博客 "PageRank" 中，在5.1 算法实现中简单实现部分原本是有一个错误的。这个错误也体现出我当时对PageRank算法有理解上的偏差。这是个什么样的错误呢？是这样的：简单实现中计算每个网页的PR值时使用的是最原始的方法，即下面的这个公式： $$ PR(p_{i}) = \al 阅读全文

posted @ 2016-08-23 16:34 刀刀流阅读(838) 评论(0) 推荐(1)

PageRank算法--从原理到实现

摘要：本文将介绍PageRank算法的相关内容，具体如下： 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法的简单实现 5.2 MapReduce实现 6.PageRank算法的缺点 7.写在最后参考资料阅读全文

posted @ 2016-08-23 16:16 刀刀流阅读(132087) 评论(8) 推荐(11)

2016年8月17日

MapReduce实现词频统计

摘要：问题描述：现在有n个文本文件，使用MapReduce的方法实现词频统计。附上统计词频的关键代码，首先是一个通用的MapReduce模块：然后需要针对词频统计这个实际问题写好自己的mapper方法和reducer方法：用3个文本文件进行测试： text\a.tex: The quick brow 阅读全文

posted @ 2016-08-17 16:26 刀刀流阅读(8230) 评论(1) 推荐(3)

公告