随笔分类 -  网络爬虫

摘要:网址:http://www.yy6080.cn/ 目标分析 m3u8 服务器将一个完整的视频切割成1000份;把每一小份视频存储到一个m3u8文件中; 还有一个m3u8文件存储着这个视频是否加密,以及该视频小m3u8目录存放的具体位置 而浏览器拿到的是一个大的m3u8文件 爬取思路 先请求到主页面 阅读全文
posted @ 2019-12-18 00:21 Mr_Yun 阅读(5461) 评论(0) 推荐(0) 编辑
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-11-20 22:46 Mr_Yun 编辑
摘要:一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter Notebook是以网页的形式打开,可以在 阅读全文
posted @ 2019-11-20 21:54 Mr_Yun 编辑
摘要:引入 数据爬取的流程为: 指定url 基于requests模块发起请求 获取响应中的数据 数据解析 进行持久化存储 一.正解解析 常用的正则表达式 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、 阅读全文
posted @ 2019-11-15 00:41 Mr_Yun 编辑
摘要:requests模块 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如 阅读全文
posted @ 2019-11-15 00:08 Mr_Yun 编辑
摘要:scrapy框架简介和基础应用 一.什么是Scrapy? 二.安装 三.基础使用 1.创建项目:scrapy startproject 项目名称 2.创建爬虫应用程序: 3.编写爬虫文件:在步骤2执行完毕后,会在项目的spiders中生成一个应用名的py爬虫文件,文件源码如下: # -*- codi 阅读全文
posted @ 2019-10-31 17:34 Mr_Yun 编辑
摘要:Requests模块 官方文档:http://cn.python-requests.org/zh_CN/latest/user/quickstart.html#id4 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另 阅读全文
posted @ 2019-03-18 20:56 Mr_Yun 编辑

点击右上角即可分享
微信分享提示