(转)Scrapy学习笔记

摘要: 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口... 阅读全文
posted @ 2014-07-18 18:18 菜菜鸟向前进 阅读(244) 评论(0) 推荐(0) 编辑

(转)Scrapy安装介绍 windows环境下---

摘要: 一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages... 阅读全文
posted @ 2014-07-18 14:56 菜菜鸟向前进 阅读(215) 评论(0) 推荐(0) 编辑

(转)python下很帅气的爬虫包 - Beautiful Soup 示例

摘要: 官方文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正... 阅读全文
posted @ 2014-07-18 10:19 菜菜鸟向前进 阅读(227) 评论(0) 推荐(0) 编辑

python实现将文件中的每一行文本记录,保存到MongoDB数据库,并防止重复插入

摘要: 文本如下:#日期 流水号 被浏览页面URL 第×页 访问者IP 访问时间 是否入口 操作系统 浏览器 语言 时区 屏幕分辨率 屏幕色彩位数 省份 城市 接入商 上网场所 是否安装ALEXA2014-7-17 11452775496 http://www.imaibo.net/space/1781... 阅读全文
posted @ 2014-07-17 16:03 菜菜鸟向前进 阅读(2487) 评论(0) 推荐(0) 编辑

碉堡了,python识别黄色图片

摘要: 创建testimg.pyimport sysfrom PIL import Image img = Image.open(sys.argv[1]).convert('YCbCr') w, h = img.size data = img.getdata() cnt = 0 ... 阅读全文
posted @ 2014-07-17 12:22 菜菜鸟向前进 阅读(927) 评论(0) 推荐(0) 编辑

转-------HTTP 405 错误 – 方法不被允许 (Method not allowed)

摘要: 介绍HTTP 协议定义一些方法,以指明为获取客户端(如您的浏览器或我们的 CheckUpDown 机器人)所指定的具体网址资源而需要在 Web 服务器上执行的动作。则这些方法如下:OPTIONS( 选项 ) :查找适用于一个特定网址资源的通讯选择。 在不需执行具体的涉及数据传输的动作情况下, 允许客... 阅读全文
posted @ 2014-07-16 14:46 菜菜鸟向前进 阅读(320) 评论(0) 推荐(0) 编辑

python中将字典转换成定义它的json字符串

摘要: Python的字典和JSON在表现形式上非常相似#这是Python中的一个字典 dic = { 'str': 'this is a string', 'list': [1, 2, 'a', 'b'], 'sub_dic': { 'sub_str': 'this is sub str', 'sub_l... 阅读全文
posted @ 2014-07-15 20:54 菜菜鸟向前进 阅读(601) 评论(0) 推荐(0) 编辑

初试selenium用python做自动化测试

摘要: 搭建平台windows准备工具如下:-------------------------------------------------------------下载pythonhttp://python.org/getit/下载setuptools 【python 的基础包工具】http://pypi... 阅读全文
posted @ 2014-07-14 18:07 菜菜鸟向前进 阅读(262) 评论(0) 推荐(0) 编辑

数据结构

摘要: 定义:数据类型是数据对象和施加在数据对象上操作的聚合体。定义:抽象数据类卫(ADT)中的数据对象和数据操作的规范声明与数据对象的表示和数据操作的实现相互分离。规范声明包括所有函数的名称,它们的参量类型,以及返冂结果的类型,还应包括函数的功能描述,但不涉及内部表示和实现细节。这样的需求界定及为重要,也... 阅读全文
posted @ 2014-07-11 16:00 菜菜鸟向前进 阅读(151) 评论(0) 推荐(0) 编辑

常用查找排序算法

摘要: 1.折半查找算法:对于一个已排好序的数组,若要查找某元素是否属于数组中,则可以用这种算法。返回找到的元素在数组中的下标,找不到则返回-1#include #define LEN 8int a[LEN] = { 1, 3, 3, 3, 4, 5, 6, 7 };int binarysearch(int... 阅读全文
posted @ 2014-07-11 12:07 菜菜鸟向前进 阅读(193) 评论(0) 推荐(0) 编辑