随笔分类 - 网络爬虫
摘要:网址:http://www.yy6080.cn/ 目标分析 m3u8 服务器将一个完整的视频切割成1000份;把每一小份视频存储到一个m3u8文件中; 还有一个m3u8文件存储着这个视频是否加密,以及该视频小m3u8目录存放的具体位置 而浏览器拿到的是一个大的m3u8文件 爬取思路 先请求到主页面
阅读全文
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方
阅读全文
摘要:一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter Notebook是以网页的形式打开,可以在
阅读全文
摘要:引入 数据爬取的流程为: 指定url 基于requests模块发起请求 获取响应中的数据 数据解析 进行持久化存储 一.正解解析 常用的正则表达式 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、
阅读全文
摘要:requests模块 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如
阅读全文
摘要:scrapy框架简介和基础应用 一.什么是Scrapy? 二.安装 三.基础使用 1.创建项目:scrapy startproject 项目名称 2.创建爬虫应用程序: 3.编写爬虫文件:在步骤2执行完毕后,会在项目的spiders中生成一个应用名的py爬虫文件,文件源码如下: # -*- codi
阅读全文
摘要:Requests模块 官方文档:http://cn.python-requests.org/zh_CN/latest/user/quickstart.html#id4 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另
阅读全文