摘要: 各类无次数限制的免费API接口整理,主要是聚合数据上和API Store上的一些,还有一些其他的。 聚合数据提供30大类,160种以上基础数据API服务,国内最大的基础数据API服务,下面就罗列一些免费的各类API接口。 手机号码归属地API接口: https://www.juhe.cn/docs/ 阅读全文
posted @ 2020-02-19 16:57 似水洋溢 阅读(3363) 评论(1) 推荐(0) 编辑
摘要: 第一章:搭建编程环境1.在Windows系统中搭建Python编程环境。 1.1 安装Python 访问http://python.org/downloads/ ,点击下载到本地,后安装。 1.2安装文本编辑器(IDE) 访问https://www.jetbrains.com/zh/pycharm/ 阅读全文
posted @ 2019-07-08 14:44 似水洋溢 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 一.linux操作系统安装及初始化配置(熟悉)。 1.计算机操作系统简介 (1)掌握操作系统的定义 (2)掌握操作系统的内核的定义: (3)了解两种操作系统用户界面:图形界面、命令行界面。 2.了解Linux主要发行版: Linux 发行版(也被叫做 GNU/Linux 发行版)通常包含了包括桌面环 阅读全文
posted @ 2019-07-05 13:26 似水洋溢 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 第一节:Scrapy框架架构 Scrapy框架介绍 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加 阅读全文
posted @ 2019-06-15 15:56 似水洋溢 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 图形验证码识别技术: 阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在 阅读全文
posted @ 2019-06-13 20:19 似水洋溢 阅读(384) 评论(0) 推荐(1) 编辑
摘要: 动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用A 阅读全文
posted @ 2019-06-08 14:29 似水洋溢 阅读(728) 评论(0) 推荐(0) 编辑
摘要: 多线程爬虫 有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。 多线程介绍: 多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单 阅读全文
posted @ 2019-06-06 12:30 似水洋溢 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 第三章 数据存储 第一节 json文件处理: 什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清 阅读全文
posted @ 2019-06-05 19:04 似水洋溢 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 第二章 数据提取 第一节:XPath语法和lxml模块 什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 XPath语法 选取节点: XPath 使用路径表达式来 阅读全文
posted @ 2019-05-30 15:09 似水洋溢 阅读(664) 评论(0) 推荐(0) 编辑
摘要: 第一章 网络请求 第一节 爬虫前奏 爬虫的实际例子: 什么是网络爬虫: 通用爬虫和聚焦爬虫: 为什么用Python写爬虫程序: 准备工具: 第二节 http协议和Chrome抓包工具 什么是http和https协议: HTTP协议:全称是HyperText Transfer Protocol,中文意 阅读全文
posted @ 2019-05-28 11:10 似水洋溢 阅读(631) 评论(0) 推荐(0) 编辑