网络爬虫简介
常见收集数据网站
白嫖类
百度指数:https://index.baidu.com/v2/index.html#/
某个内容的搜索查询量数据图表等
新浪指数:https://data.weibo.com/index
热点话题,新闻的情报
国家数据:http://www.gov.cn/shuju/index.htm
中国各项信息的数据汇总
世界银行:https://data.worldbank.org.cn/
金融方面的数据信息汇总
纳斯达克:https://www.nasdaq.com/zh/market-activity
世界股市的信息图表展示
联合国:http://data.un.org/
英文啊英文
付费类
国内
艾瑞咨询:https://www.iresearch.com.cn/
国际
埃森哲:https://www.accenture.com/cn-zh
麦肯锡:https://www.mckinsey.com.cn/
第三方平台
数据堂:https://www.datatang.com/
贵阳大数据:http://gbdex.bdgstore.cn/
互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样
互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了
我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程
跳过代码模拟网络请求获取数据并解析数据最后保存
如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据
互联网中最有价值的便是数据,比如天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等等,这些数据都代表了各个行业的真金白银,可以说,谁掌握了行业内的第一手数据,谁就成了整个行业的主宰,如果把整个互联网的数据比喻为一座宝藏,那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了所有互联网信息公司幕后的老板,换言之,它们都在免费为你提供有价值的数据。
'''爬虫学的好 牢饭吃到饱'''
1.通用爬虫
搜索引擎用的爬虫系统
尽可能把互联网所有的网页下载放到本地服务器形成备份,再对这些网页做相关处理(提取关键字、去掉广告)最后给用户提供检索结果
1.搜索引擎如何获取一个网站URL
1.主动向搜索引擎提交网址
网址收录:https://ziyuan.baidu.com/site/index
2.在其他网址设置网站外链
3.与DNS服务商合作(DNS即域名解析技术)
简便获取ip地址:ping URL -t
2.通用爬虫并不是万物皆可爬需要遵循robots协议
协议内会指明可以爬取网页的那些部分(...百度快照...)
' ''该协议一般只有大型搜索引擎会遵循'''
3.通用爬虫工作流程
爬取网页 存储数据 内容处理 提供检索及排名服务
排名:
1.PageRank值
根据网站的流量(点击、浏览、人气)统计
2.竞价排名
没有money解决不了的事情
2.聚焦爬虫
爬虫程序员写的针对指定内容的爬虫
浏览器请求数据展示的界面其实内部对应就是一堆HTML代码
爬虫程序说白了就是对这一对HTML代码做数据筛选
所以写好爬虫程序的第一步就是熟悉HTML代码基本组成
HTML:超文本标记语言
浏览器可以展示出来的界面都是由HTML构成的
eg:淘宝 天猫 京东 链家
前端
任何与用户直接打交道的操作界面都可以称之为"前端"
后端
程序员编写的运行在程序内部不直接与用户打交道的程序代码
一般都是指代程序员编写的代码
前端三剑客
HTML 网页的骨架
CSS 网页的样式
JavaScript(JS) 网页的动态效果
网页文件一般都是以.html结尾
<html>
<head>书写的一般都是给浏览器看的</head>
<body>书写的就是浏览器要展示给用户看的</body>
</html>
head内常见标签(了解)
title 定义网页标题
style 内部直接书写css代码
link 引入外部css文件
script 内部可以直接书写js代码也可以引入外部js文件
meta 定义网页源信息
<meta name="description" content="京东JD.COM-专业的综合网上购物商城,为您提供正品低价的购物选择、优质便捷的服务体验。商品来自全球数十万品牌商家,囊括家电、手机、电脑、服装、居家、母婴、美妆、个护、食品、生鲜等丰富品类,满足各种购物需求。">
<meta name="Keywords" content="网上购物,网上商城,家电,手机,电脑,服装,居家,母婴,美妆,个护,食品,生鲜,京东">
双标签(有头有尾)
链接 <a></a>
单标签(自闭和)
图片 <img/>
标题 h1~h6
下划线 u
删除线 s
斜体 i
加粗 b
段落标签 p
水平线 hr
换行 br