网络爬虫 - 随笔分类 - Mr_Yun

爬虫-电影院

摘要：网址：http://www.yy6080.cn/ 目标分析 m3u8 服务器将一个完整的视频切割成1000份；把每一小份视频存储到一个m3u8文件中；还有一个m3u8文件存储着这个视频是否加密，以及该视频小m3u8目录存放的具体位置而浏览器拿到的是一个大的m3u8文件爬取思路先请求到主页面阅读全文

posted @ 2019-12-18 00:21 Mr_Yun 阅读(5614) 评论(0) 推荐(0)

02.Python网络爬虫第二弹《http和https协议》

摘要：一.HTTP协议 1.官方概念： HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。（虽然童鞋们将这条概念都看烂了，但是也没办法，毕竟这就是HTTP的权威官方阅读全文

posted @ 2019-11-20 22:46 Mr_Yun

01.jupyter环境安装m

摘要：一、什么是Jupyter Notebook？ 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍简而言之，Jupyter Notebook是以网页的形式打开，可以在阅读全文

posted @ 2019-11-20 21:54 Mr_Yun

Python网络爬虫之三种数据解析方式

摘要：引入数据爬取的流程为：指定url 基于requests模块发起请求获取响应中的数据数据解析进行持久化存储一.正解解析常用的正则表达式单字符： . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字 \w ：数字、阅读全文

posted @ 2019-11-15 00:41 Mr_Yun

Python网络爬虫之requests模块

摘要：requests模块什么是requests模块 requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。为什么要使用requests模块因为在使用urllib模块的时候，会有诸多不便之处，总结如阅读全文

posted @ 2019-11-15 00:08 Mr_Yun

scrapy框架简介和基础应用

摘要：scrapy框架简介和基础应用一.什么是Scrapy？二.安装三.基础使用 1.创建项目：scrapy startproject 项目名称 2.创建爬虫应用程序： 3.编写爬虫文件:在步骤2执行完毕后，会在项目的spiders中生成一个应用名的py爬虫文件，文件源码如下： # -*- codi 阅读全文

posted @ 2019-10-31 17:34 Mr_Yun

requests

摘要：Requests模块官方文档：http://cn.python-requests.org/zh_CN/latest/user/quickstart.html#id4 Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另阅读全文

posted @ 2019-03-18 20:56 Mr_Yun

Aiden Yun

Python修行路

随笔分类 - 网络爬虫

公告