雕刻时光

just do it……nothing impossible
随笔 - 547, 文章 - 0, 评论 - 82, 阅读 - 86万
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

05 2014 档案

摘要:既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class =cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。sel.xpath('//div[@... 阅读全文

posted @ 2014-05-05 16:36 huhuuu 阅读(1581) 评论(0) 推荐(0) 编辑

摘要:之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候[u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而... 阅读全文

posted @ 2014-05-05 15:14 huhuuu 阅读(4188) 评论(0) 推荐(0) 编辑

摘要:scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档 几个比较重要的部分: items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的... 阅读全文

posted @ 2014-05-04 15:00 huhuuu 阅读(24333) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示