获取数据的途径 爬虫的概念以及分类 网页的组成
常见收集数据的网站
可以白嫖的
百度指数 https://index.baidu.com/v2/index.html#/
新浪指数 https://data.weibo.com/index
国家数据 http://www.gov.cn/shuju/index.htm
世界银行 https://data.worldbank.org.cn/
纳斯达克 https://www.nasdaq.com/zh/market-activity
联合国 http://data.un.org/
需要付费的
国内的
艾瑞咨询 https://www.iresearch.com.cn/
国际的
埃森哲 https://www.accenture.com/cn-zh
麦肯锡 https://www.mckinsey.com.cn/
第三方平台
数据堂 https://www.datatang.com/
贵阳大数据 http://gbdex.bdgstore.cn/
爬虫的理论
什么是互联网
互联网是由网络设备(网线,路由器,交换机,防护墙等组成)和一台台计算机连接而成,就像一张大网
互联网建立的核心目的
互联网建立的目的再与数据的共享以及传递
数据存放在一台计算机上,而将计算机连接到一起的目的是为了能够方便彼此之间的数据共享和传递,
否则只能拿着U盘去别人的计算机上面拷贝数据了
什么是上网(上网的本质是什么)
所谓的上网就是由用户端计算机发送请求给目标计算机
将目标计算机的数据下载到本地的过程
爬虫要做的是什么
跳过代码模拟网络数据请求获取数据并解析数据最后保存
爬虫的价值
如果把互联网比喻成一张打的蜘蛛网,那么一台计算机上的数据就是蜘蛛网上面的一个猎物
爬虫程序就相当于一只蜘蛛沿着蜘蛛网猎杀需要的猎物(数据)
爬虫的分类
通用爬虫
搜索引擎用的爬虫系统
尽可能把互联网所有的网页下载放到本地服务器形成备份,再对这些网页做相关处理(提取关键字、去掉广告)最后给用户提供检索结果
搜索引擎如何获取一个网站URL
1.主动向搜索引擎提交网址
网址收录:https://ziyuan.baidu.com/site/index
2.在其他网址设置网站外链
3.与DNS服务商合作(DNS即域名解析技术)
简便获取ip地址:ping URL -t
通用爬虫并不是万物皆可爬需要遵循robots协议
协议内会指明可以爬取网页的那些部分(...百度快照...)
'''该协议一般只有大型搜索引擎会遵循'''
3.通用爬虫工作流程
爬取网页 存储数据 内容处理 提供检索及排名服务 排名:
1.PageRank值
根据网站的流量(点击、浏览、人气)统计
2.竞价排名
没有money解决不了的事情
聚焦爬虫
爬虫程序员所写的针对指定的内容的爬虫
网页组成
浏览器请求数据展示的界面其实内部对应就是一堆HTML代码
爬虫程序说白了就是对这一对HTML代码做数据筛选
所以写好爬虫程序的第一步就是熟悉HTML代码基本组成
HTML:超文本标记语言
浏览器可以展示出来的界面都是由HTML构成的
各大网站都是这样
前端与后端
前端
任何与用户直接打交道的操作界面都可以称之为前端
后端
程序员编写的运行在程序内部的不直接与用户打交道的程序代码
一般指代程序员编写的代码
前端三剑客
HTML 网页的骨架
css 网页的样式
JavaScript 网页的动态效果
HTML基本组成
网页文件一般都是以.html结尾
HTML语法结构
</html>
<head>书写的一般都是给浏览器看的</head>
<body>书写的就是浏览器要展示给用户看的</body>
</html>
head内常见标签(了解)
title 定义网页标题
style 内部直接书写css代码
link 引入外部css文件
script 内部可以直接书写js代码也可以引入外部js文件
meta 定义网页源信息
<meta name="description" content="京东JD.COM-专业的综合网上购物商城,为您提供正品低价的购物选择、优质便捷的服务体验。商品来自全球数十万品牌商家,囊括家电、手机、电脑、服装、居家、母婴、美妆、个护、食品、生鲜等丰富品类,满足各种购物需求。">
<meta name="Keywords" content="网上购物,网上商城,家电,手机,电脑,服装,居家,母婴,美妆,个护,食品,生鲜,京东">
body内常见标签
html标签分类
双标签(有头有尾)
<a></a>
单标签(自闭和)
<img/>
基本标签
h1~h6
u、s、i、b
p
hr、br