贫道从来不吃素

2019年2月12日

摘要：一、Ajax数据爬取 1. 简介：Ajax 全称Asynchronous JavaScript and XML 异步的Javascript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新，页面链接不改变的情况下与服务器交换数据，获得数据后，再利用JavaScript改变阅读全文

posted @ 2019-02-12 09:11 贫道从来不吃素阅读(750) 评论(0) 推荐(0) 编辑

2019年1月30日

Python3编写网络爬虫12-数据存储方式五-非关系型数据库存储

摘要：非关系型数据库存储 NoSQL 全称 Not Only SQL 意为非SQL 泛指非关系型数据库。基于键值对不需要经过SQL层解析数据之间没有耦合性性能非常高。非关系型数据库可细分如下：对于爬虫的数据存储来说，一条数据可能存在某些字段提取失败而缺失的情况，而且数据可能随时调整。如果使用关系阅读全文

posted @ 2019-01-30 11:04 贫道从来不吃素阅读(449) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫11-数据存储方式四-关系型数据库存储

摘要：关系型数据库存储关系型数据库是基于关系模型的数据库，而关系模型是通过二维表保存的，所以它的存储方式就是行列组成的表。每一列是一个字段，每一行是一条记录。表可以看作某个实体的集合，而实体之间存在联系，就需要表与表之间的关联关系来体现。例如主键和外键的关联关系，多个表组成一个数据库，也就是关系型数据阅读全文

posted @ 2019-01-30 10:57 贫道从来不吃素阅读(367) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫10-数据存储方式三-CSV文件存储

摘要： 3.CSV文件存储 CSV 全称 Comma-Separated Values 中文叫做逗号分隔值或者字符分隔值，文件以纯文本形式存储表格数据。文件是一个字符序列可以由任意数目的记录组成相当于一个结构化表的纯文本形式，它比Excel更加简洁，XLS文本是电子表格，包含文本，数值，公式和格式等内容，阅读全文

posted @ 2019-01-30 10:50 贫道从来不吃素阅读(635) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫09-数据存储方式二-JSON文件存储

摘要： 2.JSON文件存储全称为JavaScript Object Notation 通过对象和数组的组合来表示数据，构造简洁且结构化程度非常高。是一种轻量级的数据交换格式 2.1 对象和数组在JavaScript中一切皆对象。因此任何类型都可以通过json来表示，如字符串，数字，对象，数组等阅读全文

posted @ 2019-01-30 10:48 贫道从来不吃素阅读(300) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫08-数据存储方式一-文件存储

摘要：数据存储用解析器解析出数据之后，就是存储数据了。保存的形式可以多种多样，最简单的形式是直接保存为文本文件，如TXT JSON CSV等。另外还可以保存到数据库中，如关系型数据库MySQL 非关系型数据库MongoDB Redis等一、文件存储 1.TXT文本存储将数据保存到TXT文本的操作非常阅读全文

posted @ 2019-01-30 10:45 贫道从来不吃素阅读(508) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫07-基本解析库pyquery的使用

摘要：三、pyquery 简介：同样是一个强大的网页解析工具它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便安装：验证：初始化时也需要传入HTML文本初始化一个PyQuery对象初始化方式有多种例如直接传入字符串，传入URL，传入文件名等等。 1. 字符串阅读全文

posted @ 2019-01-30 10:40 贫道从来不吃素阅读(275) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫06-基本解析库Beautiful Soup的使用

摘要：二、Beautiful Soup 简介就是python的一个HTML或XML的解析库可以用它来很方便的从网页中提取数据 0.1 提供一些简单的 python式的函数来处理导航，搜索，修改分析树等功能，它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一阅读全文

posted @ 2019-01-30 10:31 贫道从来不吃素阅读(302) 评论(0) 推荐(0) 编辑

2019年1月17日

Python3编写网络爬虫05-基本解析库XPath的使用

摘要：一、XPath 全称 XML Path Language 是一门在XML文档中查找信息的语言最初是用来搜寻XML文档的但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大，它提供了非常简洁的路径选择表达式，另外还提供了超过100个内置函数，用于字符串，数值，时间的匹配以及节点和序阅读全文

posted @ 2019-01-17 11:58 贫道从来不吃素阅读(318) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫04-爬取猫眼电影排行实例

摘要：利用requests库和正则表达式抓取猫眼电影TOP100 （requests比urllib使用更方便，由于没有学习HTML系统解析库选用re） 1.目标抓取电影名称时间评分图片等 url http://maoyan.com/board/4 结果以文件形式保存 2.分析 offset 代阅读全文

posted @ 2019-01-17 11:44 贫道从来不吃素阅读(346) 评论(0) 推荐(0) 编辑

贫道从来不吃素

公告