摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、简单的循环串行一个一个循环,耗时是最长的,是所有的时间综合 二、通过线程池整体耗时是所有连接里耗时最久的那个,相对于循环来说快了不少 三、线程池+回调函数定义了一个回调函数 四、通过进程池进程池的方式访问,同样 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、重要概念 二、爬虫反爬虫进化论 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、非关系型数据库NoSQL全程是Not Only SQL,非关系型数据库。NoSQL是基于键值对的,不需要经过SQL层的解析,数据之间没有耦合性,性能非常高。具体介绍请看(也包括Redis) http://www 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ 关系型数据库关系型数据库是基于关系模型的数据库,而关系模型是通过二维表来保存的,所以关系型数据库的存储方式就是行列组成的表。每一列是一个字段,每一行是一条记录。表可以看成是摸个实体的集合,而实体之间存在关系,比如主 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ TXT文本存储 TXT文本存储,方便,简单,几乎适用于任何平台。但是不利于检索。 1.举例: 使用requests获得网页源代码,然后使用pyquery解析库解析 2.打开方式: r rb r+ rb+ w wb 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ Beautiful Soup 借助网页的结构和属性等特性来解析网页,这样就可以省去复杂的正则表达式的编写。 Beautiful Soup是Python的一个HTML或XML的解析库。 1.解析器 解析器 使用方法 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ XPath: 全称是 XML Path Language,XML路径语言,它是一门在XML文档中和HTML文档中查找信息的语言 1.XPath常用规则 表达式 描述 nodename 选取此节点的所有子节点 / 从 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、基本用法: 1. 安装: 2. 例子: 【注】其余请求方法也是一样的 3. GET请求: 例子 若想在url中添加参数有两种方式: a. 直接添加 b. 通过params参数添加 网页的返回类型是str类型,是 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、urllib库: 1. 是Python内置的HTTP请求库 2. 在Python2中,由urllib和urllib2之分,而在Python3中,统一为urllib 3. 主要包含模块: request:最基本的 阅读全文
摘要:
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、门户新闻业务: 1. 特点:网页一旦发布,再次改动网页内容的几率很低,新闻业务内容的静态化相对比较简单 2. 步骤: a. 程序要支持发布的内容有动态转成静态的功能。 b. 运营编辑人员发布新闻网页后,后台程序 阅读全文