qwehelloworld

2018年11月6日

摘要： 1.xml是什么？和json处在同一个位置，后端给前端传输数据的时候使用的数据格式，目前以json使用居多 xml：可扩展标记语言 html：超文本标记语言不同：（1）xml用来传输和存储数据，html用来显示数据（2）xml标签可以自行定义，html不行（3）xml是纯文本信息，html 阅读全文

posted @ 2018-11-06 12:18 qwehelloworld 阅读(93) 评论(0) 推荐(0)

2018年10月31日

爬虫4

摘要： 1、bs4 BeautifulSoup, 用来解析html数据，提供的接口非常的人性化，简单安装：pip install bs4 pip源，默认从国外源安装，我们指定为国内源安装，阿里源、豆瓣源 Ubuntu源，（1）指令配置源 pip install bs4 -i 源地址（2）永久配置 p 阅读全文

posted @ 2018-10-31 12:12 qwehelloworld 阅读(99) 评论(0) 推荐(0)

2018年10月29日

爬虫3

摘要： 1、cookie cookie是什么？ http协议，发请求-给响应发请求-给响应无状态特性有问题的。登录请求-响应登录后请求-响应这个问题如何解决？引入了cookie，会话机制登录请求-响应响应的头部会有一些信息发给客户端，缓存起来登录后请求-响应请求的时候，将你保存的信息带阅读全文

posted @ 2018-10-29 18:14 qwehelloworld 阅读(142) 评论(0) 推荐(0)

2018年10月26日

爬虫2

摘要： 1、构建请求对象 headers = { 这里面写需要定制的请求头，想定制哪个定制哪个 } request = urllib.request.Request(url=url, headers=headers) response = urllib.request.urlopen(request) 2、阅读全文

posted @ 2018-10-26 12:02 qwehelloworld 阅读(286) 评论(0) 推荐(0)

2018年10月24日

爬虫基础知识1

摘要： 1.爬虫概念爬虫是什么？生活中，爬虫就是爬行的虫子，毛毛虫、蛆、蜘蛛（spider）蜘蛛网：从任何一端都可以到达任何一端，由很多的节点构成互联网爬虫。通用爬虫：百度、搜狗、谷歌、360、必应等搜索引擎工作：将互联网中所有的数据全部爬取下来，给用户提供检索服务自己的网站呢？博客，阿里阅读全文

posted @ 2018-10-24 13:00 qwehelloworld 阅读(343) 评论(0) 推荐(0)

公告