随笔分类 - python爬虫
摘要:什么是框架? 就是一个集成了很多功能并且具有很强通用性的一个项目模板 如何学习框架? 专门学习框架封装的各种功能的详细用法 什么是scrapy? 爬虫中封装好的一个明星框架。功能:异步的数据下载,高性能的数据解析,高性能的持久化存储,分布式 scrapy框架的基本使用: 环境的安装: - mac o
阅读全文
摘要:需求:爬取网易新闻五大模块的新闻标题及关键字,并将结果同时存放在本地及数据库中 文件items.py: import scrapy class WangyiproItem(scrapy.Item): title = scrapy.Field() keywords = scrapy.Field() 爬
阅读全文
摘要:selenium模块介绍 什么是selenium模块? 基于浏览器自动化的一个模块 selenium模块的功能: 便捷的获取网站中动态加载的数据 便捷实现模拟登录 selenium使用流程: 下载一个浏览器的驱动程序(谷歌浏览器) 下载路径:http://chromedriver.storage.g
阅读全文
摘要:数据解析原理概述: - 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 - 1.进行指定标签的定位 - 2.标签或者标签对应的属性中存储的数据值进行提取(解析) 正则表达式解析 re模块 #使用聚焦爬虫将页面中所有的图片进行解析/提取 ex = '<div class="thumb"
阅读全文
摘要:urllib Python内置的http请求库(比较古老,现在使用频率低),包括如下模块: requests:http请求模块,用来模拟发送请求,传入url及额外参数 error:异常处理模块,如果出现请求错误,可以捕获异常 parse:提供url处理方法,如拆分,解析,合并等 robotparse
阅读全文
摘要:一. 爬虫基础 网络爬虫(Crawler)又被称为网页蜘蛛(Spider),网络机器人,它是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本 名词解释 URL:Uniform Resource Locator,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位
阅读全文
摘要:网页组成:HTML,CSS,JavaScript: Html相当于骨架,Css相当于皮肤,JavaScript相当于肌肉 三者结合起来形成完善的网页 HTML 超文本标记语言(hyper text markup language) 决定网页的结构和内容(是什么) <head>元素标记头部文件,<ti
阅读全文
摘要:http请求 浏览器中输入url后,浏览器向网站所在服务器发送了一个请求,网站服务器接收请求,并对这个请求进行处理和解析,然后返回对应的响应,传回给浏览器,再通过浏览器解析出来 请求可分为四部分内容: 请求的url(request url) 请求方法(request method) 请求头(requ
阅读全文