01 2017 档案

phantomJs页面截图
摘要:因为phantomjs使用了一个真正的渲染引擎WebKit,它能截取一个web页面的真实影像,这是因为phantomjs能够折射出WEB页面上的任何东西,包括html,css,svg和Canvas等。 新建一个JS文件,baidu.js。 官方提供了一个更完整的将网页保存为图片的JS示例,文件名为r 阅读全文

posted @ 2017-01-20 12:02 孔扎根 阅读(605) 评论(0) 推荐(0)

eclipse工具的安装配置
摘要:安装环境 系统:Windows7 软件:jre-8u73-windows-x64.exe,eclipse-inst-win64.exe Eclipse的安装过程 1、安装jre-8u73-windows-x64.exe 2、安装eclipse-inst-win64.exe 1、 2、 3、安装成功, 阅读全文

posted @ 2017-01-19 17:37 孔扎根 阅读(449) 评论(0) 推荐(0)

BeautifulSoup爬虫基础知识
摘要:安装beautiful soup模块 Windows: pip install beautifulsoup4 Linux: apt-get install python-bs4 BS4解析器比较 BS官方推荐使用lxml作为解析器,因为其速度快,也比较稳定。那么lxml解析器是怎么安装的呢? Win 阅读全文

posted @ 2017-01-19 16:52 孔扎根 阅读(906) 评论(0) 推荐(0)

python之mechanize模拟浏览器
摘要:安装 Windows: pip install mechanize Linux:pip install python-mechanize 个人感觉mechanize也只适用于静态网页的抓取,如果是异步的数据,则页面显示的结果与抓取的结果不一致,使用有比较大的局限性。 功能测试:百度搜索萧县房价 准备 阅读全文

posted @ 2017-01-18 15:02 孔扎根 阅读(5655) 评论(0) 推荐(2)

Python-Image 基本的图像处理操作
摘要:Python-Image 基本的图像处理操作,有需要的朋友可以参考下。 Python 里面最常用的图像操作库是 Image library(PIL),功能上,虽然还不能跟Matlab比较,但是还是比较强大的,废话补多少,写点记录笔记。 1. 首先需要导入需要的图像库: import Image 2. 阅读全文

posted @ 2017-01-18 10:55 孔扎根 阅读(87603) 评论(0) 推荐(3)

python之re模块
摘要:字符 预定义字符集 数量词 边界匹配 常用的re模块方法 I amam['modules', 'modules']modulesmodules 阅读全文

posted @ 2017-01-17 10:25 孔扎根 阅读(445) 评论(0) 推荐(0)

redhat5安装phantomjs
摘要:Linux 64-bit Download phantomjs-2.1.1-linux-x86_64.tar.bz2 (22.3 MB) and extract the content. Note: For this static build, the binary is self-containe 阅读全文

posted @ 2017-01-16 10:39 孔扎根 阅读(707) 评论(0) 推荐(0)

python标准库-日志logging
摘要:1、模块级别 默认情况下logging模块将日志打印到了标准输出,且只显示了级别大于等于warning的日志信息,所以它的默认级别是warning. 日志级别等级CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET 输出 2、logging.basic 阅读全文

posted @ 2017-01-15 10:49 孔扎根 阅读(354) 评论(0) 推荐(0)

urllib2修改header
摘要:python网络访问的标准模块 urllib与urllib2并不是升级版的关系,具体可见谷歌文章:difference between urllib and urllib2urllib2的官方文档:https://docs.python.org/2.7/library/urllib2.html#mo 阅读全文

posted @ 2017-01-15 10:32 孔扎根 阅读(4036) 评论(0) 推荐(0)

selenium&phantomjs实战--漫话爬取
摘要:为什么直接保存当前网页,而不是找到所有漫话链接,再有针对性的保存图片? 因为防盗链的原因,当直接保存漫话链接图片时,只能保存到防盗链的图片。 阅读全文

posted @ 2017-01-14 12:33 孔扎根 阅读(469) 评论(0) 推荐(0)

selenium&phantom实战--获取代理数据
摘要:获取快代理网站的数据 注意: 阅读全文

posted @ 2017-01-13 16:15 孔扎根 阅读(901) 评论(0) 推荐(0)

selenium&PhantomJS笔记
摘要:配置pip文件 Windows下pip 配置文件的位置%HOME%/pip/pip.ini linux下安装pip,以Debian Linux为例su -apt-get install python-pip linux下pip的配置文件是$HOME/.pip/pip.conf 验证安装源是否修改成功 阅读全文

posted @ 2017-01-12 18:58 孔扎根 阅读(408) 评论(0) 推荐(0)

phantomJs页面操作
摘要:因为phantomjs能加载和操纵页面,它可以自动化地完美执行页面的各种操作。 操作文档: 脚本的被执行,就像它真的正在web 浏览器上运行一样。 下面的脚本,是读取元素id为myagent的文本内容 2、从1.6版本开始,你可以使用page.includeJs加载jquery到页面中 3、如果我们 阅读全文

posted @ 2017-01-11 15:51 孔扎根 阅读(9046) 评论(0) 推荐(0)

phantomJs 快速入门学习 了解大概
摘要:1、hellow程序 一个永远的开头,创建一个文件hello.js。内容如下 运行程序 2、页面加载 创建一个文件myload.js webpage是phantomjs的最重要的一个函数,用于初始化一个无头浏览器实例。 运行程序,此时c:\myjs\下生成了examp.jpg图片 3、加载速度测试 阅读全文

posted @ 2017-01-11 11:44 孔扎根 阅读(820) 评论(0) 推荐(0)

jquery循环操作
摘要:each遍历 用法一、 用法二、 $.each(data,function(index,element){}) 阅读全文

posted @ 2017-01-05 14:54 孔扎根 阅读(407) 评论(0) 推荐(0)

导航