摘要:
User-Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者 阅读全文
摘要:
一、HTML介绍 1.HTML的概述 html全称HyperText Mackeup Language,翻译为超文本标记语言,它不是一种编程语言,是一种描述性的标记语言,用于描述超文本内容的显示方式。比如字体、颜色、大小等。 超文本:音频,视频,图片称为超文本。 标记 :<英文单词或者字母>称为标记 阅读全文
摘要:
Web介绍: w3c:万维网联盟组织,用来制定web标准的机构(组织) web标准:制作网页遵循的规范 web准备规范的分类:结构标准、表现标准、行为标准。 结构:html。表示:css。行为:Javascript。 web总结: 结构标准:相当于人的身体。html就是用来制作网页的。 表现标准: 阅读全文
摘要:
正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。 正则表达式通常被用来匹配、检索、替换和分割那些符合某个模式(规则)的文本。 一、常用正则表达式回顾 单字符: . : 除换行以外所有字符 [] :[aoe] 阅读全文
摘要:
一、简介 1.下载:pip install lxml 推荐使用douban提供的pipy国内镜像服务,如果想手动指定源,可以在pip后面跟-i 来指定源,比如用豆瓣的源来安装web.py框架: pip install web.py -i http://pypi.douban.com/simple - 阅读全文
摘要:
引入 大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。因此,在聚焦爬虫中使用数据解析。所以,我们的数据爬取的流程为: 指定url 基于requests模块发起请求 获取响应中的数据 数据解析 进行持久化存储 数据解析: - 被应用在聚焦爬虫。 阅读全文