文章分类 -  数据挖掘

主要偏向于社交网络的数据挖掘技术
Python编写简单的网络爬虫
摘要:Python编写简单的网络爬虫根据网络上给出的例子,简单总结一下用Python编写网络爬虫程序的基本思路,以百度为例,主要有以下策略:Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得NBA这个词在百度搜索结果页中各个搜索结果对应的URL,这就是一个很简单的爬虫需求。1、通过urllib2这个Module获得对应的HTML源码。# -*- encoding: utf-8 -*-import urllib2url='http://www.baidu.com/s?wd=NBA'content=urllib2.urlopen(url).re 阅读全文
posted @ 2013-01-06 00:06 敲代码的耗子 阅读(3505) 评论(3) 推荐(0)
集体智慧编程(第一章 集体智慧导言)
摘要:第一章 集体智慧导言(Introduction to Collective Intelligence) 不得不说,《集体智慧编程》是一本很好地用于SNS入门的书籍,当然对于认识机器学习,了解数据挖掘更是有很大帮助。一直以来都在看英文版(现在也出了中文版的,电子版的都可以从网上下到),感觉理解起来难度不大,语言浅显易懂,有这方面兴趣的可以看看。书中所采用的程序设计语言是Python,想必在数据分析与数据处理领域有研究的同志们对这么语言也不会陌生了吧,这也是我最初选择读这本书的原因。 Why Python? ——Concise(简洁)、Easy to read(易读)、Easily exten.. 阅读全文
posted @ 2013-01-04 21:34 敲代码的耗子 阅读(300) 评论(0) 推荐(0)