上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页

2017年2月6日

scrapy简单入门及选择器(xpath\css)

摘要: 简介 scrapy被认为是比较简单的爬虫框架,资料比较齐全,网上也有很多教程。官网上介绍了它的四种安装方法,PyPI、Conda、APT、Source,我们只介绍最简单的安装方法。 安装 Windows下的安装 pip install scrapy Linux下的安装 apt-get install 阅读全文

posted @ 2017-02-06 10:17 孔扎根 阅读(2460) 评论(0) 推荐(0) 编辑

2017年1月20日

phantomJs页面截图

摘要: 因为phantomjs使用了一个真正的渲染引擎WebKit,它能截取一个web页面的真实影像,这是因为phantomjs能够折射出WEB页面上的任何东西,包括html,css,svg和Canvas等。 新建一个JS文件,baidu.js。 官方提供了一个更完整的将网页保存为图片的JS示例,文件名为r 阅读全文

posted @ 2017-01-20 12:02 孔扎根 阅读(582) 评论(0) 推荐(0) 编辑

2017年1月19日

eclipse工具的安装配置

摘要: 安装环境 系统:Windows7 软件:jre-8u73-windows-x64.exe,eclipse-inst-win64.exe Eclipse的安装过程 1、安装jre-8u73-windows-x64.exe 2、安装eclipse-inst-win64.exe 1、 2、 3、安装成功, 阅读全文

posted @ 2017-01-19 17:37 孔扎根 阅读(392) 评论(0) 推荐(0) 编辑

BeautifulSoup爬虫基础知识

摘要: 安装beautiful soup模块 Windows: pip install beautifulsoup4 Linux: apt-get install python-bs4 BS4解析器比较 BS官方推荐使用lxml作为解析器,因为其速度快,也比较稳定。那么lxml解析器是怎么安装的呢? Win 阅读全文

posted @ 2017-01-19 16:52 孔扎根 阅读(894) 评论(0) 推荐(0) 编辑

2017年1月18日

python之mechanize模拟浏览器

摘要: 安装 Windows: pip install mechanize Linux:pip install python-mechanize 个人感觉mechanize也只适用于静态网页的抓取,如果是异步的数据,则页面显示的结果与抓取的结果不一致,使用有比较大的局限性。 功能测试:百度搜索萧县房价 准备 阅读全文

posted @ 2017-01-18 15:02 孔扎根 阅读(5593) 评论(0) 推荐(2) 编辑

Python-Image 基本的图像处理操作

摘要: Python-Image 基本的图像处理操作,有需要的朋友可以参考下。 Python 里面最常用的图像操作库是 Image library(PIL),功能上,虽然还不能跟Matlab比较,但是还是比较强大的,废话补多少,写点记录笔记。 1. 首先需要导入需要的图像库: import Image 2. 阅读全文

posted @ 2017-01-18 10:55 孔扎根 阅读(87242) 评论(0) 推荐(3) 编辑

2017年1月17日

python之re模块

摘要: 字符 预定义字符集 数量词 边界匹配 常用的re模块方法 I amam['modules', 'modules']modulesmodules 阅读全文

posted @ 2017-01-17 10:25 孔扎根 阅读(438) 评论(0) 推荐(0) 编辑

2017年1月16日

redhat5安装phantomjs

摘要: Linux 64-bit Download phantomjs-2.1.1-linux-x86_64.tar.bz2 (22.3 MB) and extract the content. Note: For this static build, the binary is self-containe 阅读全文

posted @ 2017-01-16 10:39 孔扎根 阅读(691) 评论(0) 推荐(0) 编辑

2017年1月15日

python标准库-日志logging

摘要: 1、模块级别 默认情况下logging模块将日志打印到了标准输出,且只显示了级别大于等于warning的日志信息,所以它的默认级别是warning. 日志级别等级CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET 输出 2、logging.basic 阅读全文

posted @ 2017-01-15 10:49 孔扎根 阅读(323) 评论(0) 推荐(0) 编辑

urllib2修改header

摘要: python网络访问的标准模块 urllib与urllib2并不是升级版的关系,具体可见谷歌文章:difference between urllib and urllib2urllib2的官方文档:https://docs.python.org/2.7/library/urllib2.html#mo 阅读全文

posted @ 2017-01-15 10:32 孔扎根 阅读(4007) 评论(0) 推荐(0) 编辑

上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页

导航