摘要: 在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活 资本青睐创业机会多》里,我们曾经提到“在2016年,防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章,文章里主要介绍了常见的反爬虫应对方法,下面是正文。 常见的反爬虫 这几天在爬一个网站,网站做了 阅读全文
posted @ 2016-02-18 08:40 胡立峰 阅读(9698) 评论(0) 推荐(1) 编辑
摘要: 一、课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/ 以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅, 阅读全文
posted @ 2016-02-17 09:23 胡立峰 阅读(2742) 评论(0) 推荐(1) 编辑
摘要: 相比于爬虫框架,知乎小爬虫,更加适合初学者,尤其是想要了解爬虫技术细节、实现自己编写爬虫需求的初学者。 1. 谈爬虫工程师的价值 大数据时代已到,数据越来越具有价值了,没有数据寸步难行,有了数据好好利用,可以在诸多领域干很多事,比如很火的互联网金融。从互联网上爬来自己想要的数据,是数据的一个重要来源 阅读全文
posted @ 2016-02-17 08:45 胡立峰 阅读(8872) 评论(3) 推荐(0) 编辑
摘要: 利用情感分析技术对用户的评论、社会媒体上发表的言论进行分析,可以帮助我们得知用户的情感倾向性,比如喜欢什么(篮球、购物、哪款手机等等)。基于此,我们可以做有针对性的产品或者服务营销,往往会有事半功倍的效果。 以下面的例子来说:​ 微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立 阅读全文
posted @ 2016-02-14 16:20 胡立峰 阅读(795) 评论(0) 推荐(0) 编辑
摘要: 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?这完全可以是一道程序员的笔试题。 许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著... 阅读全文
posted @ 2016-01-19 10:35 胡立峰 阅读(279) 评论(0) 推荐(0) 编辑