摘要: 1.xml是什么? 和json处在同一个位置,后端给前端传输数据的时候使用的数据格式,目前以json使用居多 xml:可扩展标记语言 html:超文本标记语言 不同: (1)xml用来传输和存储数据,html用来显示数据 (2)xml标签可以自行定义,html不行 (3)xml是纯文本信息,html 阅读全文
posted @ 2018-11-06 12:18 qwehelloworld 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 1、bs4 BeautifulSoup, 用来解析html数据,提供的接口非常的人性化, 简单 安装:pip install bs4 pip源,默认从国外源安装,我们指定为国内源安装,阿里源、豆瓣源 Ubuntu源, (1)指令配置源 pip install bs4 -i 源地址 (2)永久配置 p 阅读全文
posted @ 2018-10-31 12:12 qwehelloworld 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 1、cookie cookie是什么? http协议,发请求-给响应 发请求-给响应 无状态特性 有问题的。 登录请求-响应 登录后请求-响应 这个问题如何解决? 引入了cookie,会话机制 登录请求-响应 响应的头部会有一些信息发给客户端,缓存起来 登录后请求-响应 请求的时候,将你保存的信息带 阅读全文
posted @ 2018-10-29 18:14 qwehelloworld 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1、构建请求对象 headers = { 这里面写需要定制的请求头,想定制哪个定制哪个 } request = urllib.request.Request(url=url, headers=headers) response = urllib.request.urlopen(request) 2、 阅读全文
posted @ 2018-10-26 12:02 qwehelloworld 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 1.爬虫概念 爬虫是什么? 生活中,爬虫就是爬行的虫子,毛毛虫、蛆、蜘蛛(spider) 蜘蛛网:从任何一端都可以到达任何一端,由很多的节点构成 互联网爬虫。 通用爬虫: 百度、搜狗、谷歌、360、必应等 搜索引擎 工作:将互联网中所有的数据全部爬取下来,给用户提供检索服务 自己的网站呢?博客,阿里 阅读全文
posted @ 2018-10-24 13:00 qwehelloworld 阅读(318) 评论(0) 推荐(0) 编辑