04 2015 档案

摘要:在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息。 首先,我们需要安装一个支持xpath的python库。目前在libxml2的... 阅读全文
posted @ 2015-04-07 22:09 whgiser 阅读(62188) 评论(0) 推荐(3) 编辑
摘要:聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇)。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。组内相似性越大,组间差别越大,聚类就越好。 先介绍下聚类的不同类型,通常有以下几种: (1)层次的与划分的:如果允许簇具有子簇,则我们得到一个层次聚类。层次聚类 阅读全文
posted @ 2015-04-05 21:25 whgiser 阅读(9171) 评论(0) 推荐(0) 编辑
摘要:自python2.6开始,新增了一种格式化字符串的函数str.format(),可谓威力十足。那么,他跟之前的%型格式化字符串相比,有什么优越的存在呢?让我们来揭开它羞答答的面纱。语法它通过{}和:来代替%。“映射”示例通过位置 字符串的format函数可以接受不限个参数,位置可以不按顺序,可以不用... 阅读全文
posted @ 2015-04-01 09:16 whgiser 阅读(1078) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示