摘要: 昨天晚上群里有朋友采集网页时发现file_get_contents 获得的网页保存到本地为乱码,响应的header 里Content-Encoding:gzip但在浏览器里看是正常的。因为我有过相关经验马上发现是网站开启了gzip而file_get_contents 获得的是压缩过的页面,而不是解压过的页面(去年有一篇相关文章里面有解决方法 :php file_get_contents读取远程文件的乱码问题(gzip压缩引起的)) 问题得到解决;(不知道是不是要file_get_conttents 请求网页时带上相应的参数,直接获得没有被gzip压缩过的网页?)。刚好我前不久刚看到可以用读取文 阅读全文
posted @ 2013-06-02 01:49 keygle 阅读(2991) 评论(0) 推荐(0) 编辑
摘要: 上月底买了树莓派 不是装xbian 玩dlna 看片 就是玩bt下载,又装arch,可惜我是linux盲,都是照着网上的教程瞎折腾,不过在玩的过程中也学到很多东西,也达到了我买树莓派的初衷。一张sd卡的debian系统又因我老拔电源线(没开关、键盘失控 、死机没办法)。系统进不去图形界面、开机还提示错误,于是我把卡格了重新刷了系统,但设置静态ip又忘了于是又google... 为了避免下次在瞎找,还是自己记一下。首先是找到并打开 网络配置文件sudo nano /etc/network/interfaces编辑里面的 网络配置我的 pi 现在是静态ip 192.168.1.88 网关是 1.. 阅读全文
posted @ 2013-04-27 23:26 keygle 阅读(12087) 评论(0) 推荐(0) 编辑
摘要: 在项目里看到的发现不错,怕忘记留做笔记。/**设置或获取CSS样式 *设置:css(obj,{display:'block',color:'red'}); *获取:css(obj,'color'); */ function css() { var obj = arguments[0], options = arguments[1]; //获得函数的参数,第一个参数是dom对象。 if(!!obj == false || typeof options == 'undefined') return null; if( ... 阅读全文
posted @ 2013-04-26 15:24 keygle 阅读(1350) 评论(0) 推荐(0) 编辑
摘要: 自古网易出人才,网易评论是我每天必看的,网友的智慧是无限的,看网易评论长阅历,放松心情。刚好最近写采集 于是就分析下网易评论的数据,发现网易的数据也是json形式加载过来的。可以采集的 评论有:精彩跟帖http://tie.163.com/plaza/recommend.html精彩盖楼http://tie.163.com/plaza/build.html网友热议 http://tie.163.com/plaza/topVote.html下面只以网易精彩跟帖做例子分析采集:网易精彩跟帖http://tie.163.com/plaza/recommend.html 有3页 90条跟帖用chr.. 阅读全文
posted @ 2013-03-15 00:06 keygle 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 2011年时公司有这个采集电视节目预告这个需求,那时是其他同事写的,今天在网上找了一下,采集那些电视网站都需要用到正则匹配,一番查找之后终于在手机CCTV(m.cctv.com)里的找到了简单的获取节目预告的方式。点开 手机央视网在最下面 点开 电视节目 里面就有我们需要的节目预告了如http://m.46644.com/tool/tv/data/433/20130311.js点开是获得 cctv1 这周的节目单433是 电视台id;20130311.js 是 周一 的日期命名的 js采集分析:1、首先获得电视台名和其id (都在页面上可以正则获得);2、根据获得的电视台id 重组url .. 阅读全文
posted @ 2013-03-12 18:23 keygle 阅读(1763) 评论(0) 推荐(1) 编辑
摘要: 采集分析见采集练习(五) php 获得chrome扩展 微度新标签页 下的云壁纸(主要是美女壁纸)以下是用python 实现同样的功能。python 版本 2.73以下是代码:# -*- coding: utf-8 -*-import urllib2,json,osdir = "D:\python\weidu\images\\"jsonUrl = "http://hao.weidunewtab.com/cloudWallpaper/index.json";req = urllib2.Request(jsonUrl)request = urllib2.ur 阅读全文
posted @ 2013-03-11 23:29 keygle 阅读(800) 评论(0) 推荐(0) 编辑
摘要: 认识chrome 扩展还是去年年中,在朋友的帮助下用goagentFQ,那时才知道有chrome 扩展这玩意,当时觉得很新奇。于是自己陆续装了些chrome扩展。前不久偶然间在google play 安装了微度新标签页这个扩展,功能试了下还不错。前几天采集hao123的美女图,于是想采下微度新标签页 下的云壁纸(里面的壁纸都是整理过的很多都是1080p的,质量也非常不错尤其是美女栏目),花费几个小时终于搞定。采集分析 :打开微度新标签页 的云壁纸 时会ajax 获得一个json http://hao.weidunewtab.com/cloudWallpaper/index.json下拉加载.. 阅读全文
posted @ 2013-03-11 00:03 keygle 阅读(1065) 评论(0) 推荐(0) 编辑
摘要: python实现前几天用php 实现的下载图片功能。python 版本 2.73部分代码来自 http://www.php10086.com/2013/01/1278.html遇到的问题 :1、采集执行到30页就出错,程序中断 (问题没解决) 我只好采30页;2、 open 函数打开文件时候 'w' 模式 保存到本地的图片无法打开, 后来 使用 'wb'模式 问题得到解决;3、 没有后缀的图片,默认加上 .jpg 后缀;4、获得 json 数据必须 带上 User_Agent Referer 否则无法获得。以下是代码 :# -*- coding: utf-8 - 阅读全文
posted @ 2013-03-08 22:49 keygle 阅读(1098) 评论(0) 推荐(0) 编辑
摘要: 闲来无事,刚好有这个需求。于是就练一下采集。。采集当当网的图书信息。。开始考虑 直接采集 当当网的电脑版(www.dangdang.com)但分析了下 估计正则有点难写。于是灵机一动,现在都是移动互联网时代了,肯定采当当网的 移动版网页 (m.dangdang.com) 简单 正则又好写 而且很有可能数据直接在返回的json上直接解析就行(淘宝网的移动版就是这样); 但打开当当网一分析 还是苦b的正则,而且 直到我写完了程序才知道 移动版当当网的人性化 只能翻6页 坑爹呀。。。搜索 某出版社 请求的链接:http://m.dangdang.com/gw_search.php?key=%E... 阅读全文
posted @ 2013-03-08 15:52 keygle 阅读(1920) 评论(0) 推荐(0) 编辑
摘要: 昨天看到q群里群主博客获得 hao123 里的美女图的文章 于是自己复制代码试了下,发现没有成功(群主的是用file_get_contents 直接打开)。于是我在他的基础上,修改一番采集成功。预览链接 http://pic.hao123.com/meinv_meinv?style=xl用chrome 开发者工具 分析图片来源网页是瀑布流形式的 下拉到底部执行 网页ajax 加载图片 发现 图片 和文字 来自 一个 jsonhttp://pic.hao123.com/screen/meinv_meinv/2?v=1362645599936&act=type参数分析 :meinv_mei 阅读全文
posted @ 2013-03-07 16:57 keygle 阅读(1683) 评论(0) 推荐(0) 编辑