keygle - 博客园

2013年6月2日

摘要：昨天晚上群里有朋友采集网页时发现file_get_contents 获得的网页保存到本地为乱码,响应的header 里Content-Encoding:gzip但在浏览器里看是正常的。因为我有过相关经验马上发现是网站开启了gzip而file_get_contents 获得的是压缩过的页面，而不是解压过的页面(去年有一篇相关文章里面有解决方法：php file_get_contents读取远程文件的乱码问题(gzip压缩引起的)) 问题得到解决;（不知道是不是要file_get_conttents 请求网页时带上相应的参数，直接获得没有被gzip压缩过的网页？）。刚好我前不久刚看到可以用读取文阅读全文

posted @ 2013-06-02 01:49 keygle 阅读(2991) 评论(0) 推荐(0) 编辑

2013年4月27日

<raspberry pi> raspberry pi 设置wlan 静态ip

摘要：上月底买了树莓派不是装xbian 玩dlna 看片就是玩bt下载，又装arch，可惜我是linux盲，都是照着网上的教程瞎折腾，不过在玩的过程中也学到很多东西，也达到了我买树莓派的初衷。一张sd卡的debian系统又因我老拔电源线(没开关、键盘失控、死机没办法)。系统进不去图形界面、开机还提示错误，于是我把卡格了重新刷了系统，但设置静态ip又忘了于是又google... 为了避免下次在瞎找，还是自己记一下。首先是找到并打开网络配置文件sudo nano /etc/network/interfaces编辑里面的网络配置我的 pi 现在是静态ip 192.168.1.88 网关是 1.. 阅读全文

posted @ 2013-04-27 23:26 keygle 阅读(12087) 评论(0) 推荐(0) 编辑

2013年4月26日

<javascript学习笔记> 设置和获取dom的css样式、获取url参数

摘要：在项目里看到的发现不错，怕忘记留做笔记。/**设置或获取CSS样式 *设置：css(obj,{display:'block',color:'red'}); *获取：css(obj,'color'); */ function css() { var obj = arguments[0], options = arguments[1]; //获得函数的参数,第一个参数是dom对象。 if(!!obj == false || typeof options == 'undefined') return null; if( ... 阅读全文

posted @ 2013-04-26 15:24 keygle 阅读(1350) 评论(0) 推荐(0) 编辑

2013年3月15日

采集练习(八) php 获得网易精彩跟贴数据

摘要：自古网易出人才，网易评论是我每天必看的，网友的智慧是无限的，看网易评论长阅历，放松心情。刚好最近写采集于是就分析下网易评论的数据，发现网易的数据也是json形式加载过来的。可以采集的评论有：精彩跟帖http://tie.163.com/plaza/recommend.html精彩盖楼http://tie.163.com/plaza/build.html网友热议 http://tie.163.com/plaza/topVote.html下面只以网易精彩跟帖做例子分析采集：网易精彩跟帖http://tie.163.com/plaza/recommend.html 有3页 90条跟帖用chr.. 阅读全文

posted @ 2013-03-15 00:06 keygle 阅读(400) 评论(0) 推荐(0) 编辑

2013年3月12日

采集练习(七) php 获得电视节目预告（一周节目）

摘要： 2011年时公司有这个采集电视节目预告这个需求，那时是其他同事写的，今天在网上找了一下，采集那些电视网站都需要用到正则匹配，一番查找之后终于在手机CCTV（m.cctv.com）里的找到了简单的获取节目预告的方式。点开手机央视网在最下面点开电视节目里面就有我们需要的节目预告了如http://m.46644.com/tool/tv/data/433/20130311.js点开是获得 cctv1 这周的节目单433是电视台id;20130311.js 是周一的日期命名的 js采集分析：1、首先获得电视台名和其id （都在页面上可以正则获得）;2、根据获得的电视台id 重组url .. 阅读全文

posted @ 2013-03-12 18:23 keygle 阅读(1763) 评论(0) 推荐(1) 编辑

2013年3月11日

采集练习(六) python获得chrome扩展微度新标签页下的云壁纸

摘要：采集分析见采集练习(五) php 获得chrome扩展微度新标签页下的云壁纸（主要是美女壁纸)以下是用python 实现同样的功能。python 版本 2.73以下是代码：# -*- coding: utf-8 -*-import urllib2,json,osdir = "D:\python\weidu\images\\"jsonUrl = "http://hao.weidunewtab.com/cloudWallpaper/index.json";req = urllib2.Request(jsonUrl)request = urllib2.ur 阅读全文

posted @ 2013-03-11 23:29 keygle 阅读(800) 评论(0) 推荐(0) 编辑

采集练习(五) php 获得chrome扩展微度新标签页下的云壁纸（主要是美女壁纸)

摘要：认识chrome 扩展还是去年年中，在朋友的帮助下用goagentFQ，那时才知道有chrome 扩展这玩意，当时觉得很新奇。于是自己陆续装了些chrome扩展。前不久偶然间在google play 安装了微度新标签页这个扩展，功能试了下还不错。前几天采集hao123的美女图，于是想采下微度新标签页下的云壁纸（里面的壁纸都是整理过的很多都是1080p的，质量也非常不错尤其是美女栏目），花费几个小时终于搞定。采集分析：打开微度新标签页的云壁纸时会ajax 获得一个json http://hao.weidunewtab.com/cloudWallpaper/index.json下拉加载.. 阅读全文

posted @ 2013-03-11 00:03 keygle 阅读(1065) 评论(0) 推荐(0) 编辑

2013年3月8日

采集练习(四) python 获得hao123导航图片分类下的美女图片

摘要： python实现前几天用php 实现的下载图片功能。python 版本 2.73部分代码来自 http://www.php10086.com/2013/01/1278.html遇到的问题：1、采集执行到30页就出错，程序中断（问题没解决）我只好采30页;2、 open 函数打开文件时候 'w' 模式保存到本地的图片无法打开，后来使用 'wb'模式问题得到解决;3、没有后缀的图片，默认加上 .jpg 后缀;4、获得 json 数据必须带上 User_Agent Referer 否则无法获得。以下是代码：# -*- coding: utf-8 - 阅读全文

posted @ 2013-03-08 22:49 keygle 阅读(1098) 评论(0) 推荐(0) 编辑

采集练习(三) php 采集当当网图书的数据（初版）

摘要：闲来无事，刚好有这个需求。于是就练一下采集。。采集当当网的图书信息。。开始考虑直接采集当当网的电脑版（www.dangdang.com）但分析了下估计正则有点难写。于是灵机一动，现在都是移动互联网时代了，肯定采当当网的移动版网页 (m.dangdang.com) 简单正则又好写而且很有可能数据直接在返回的json上直接解析就行(淘宝网的移动版就是这样）; 但打开当当网一分析还是苦b的正则，而且直到我写完了程序才知道移动版当当网的人性化只能翻6页坑爹呀。。。搜索某出版社请求的链接:http://m.dangdang.com/gw_search.php?key=%E... 阅读全文

posted @ 2013-03-08 15:52 keygle 阅读(1920) 评论(0) 推荐(0) 编辑

2013年3月7日

采集练习(二) php 获得hao123导航图片分类下的美女图片

摘要：昨天看到q群里群主博客获得 hao123 里的美女图的文章　于是自己复制代码试了下，发现没有成功(群主的是用file_get_contents 直接打开)。于是我在他的基础上，修改一番采集成功。预览链接 http://pic.hao123.com/meinv_meinv?style=xl用chrome 开发者工具分析图片来源网页是瀑布流形式的下拉到底部执行网页ajax 加载图片发现图片和文字来自一个 jsonhttp://pic.hao123.com/screen/meinv_meinv/2?v=1362645599936&act=type参数分析：meinv_mei 阅读全文

posted @ 2013-03-07 16:57 keygle 阅读(1683) 评论(0) 推荐(0) 编辑

深渊戮影

公告