2019年8月31日

摘要: ##################################################################### 制定一个目标(爬取周杰伦的歌曲清单); 根据目标,确认一个方案(爬取QQ音乐); 带着方案,去分析它的网站结构;最后去写代码 ################# 阅读全文

posted @ 2019-08-31 15:42 CH-TNT 阅读(2364) 评论(0) 推荐(0) 编辑

摘要: 【解析数据】 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子 在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 【提取数据】是指把我们需要的数据从众多数据中挑选出来 点击右键-显示网页源代码,在这个页面里去搜索会更加准确 安装 pip install Bea 阅读全文

posted @ 2019-08-31 12:30 CH-TNT 阅读(10650) 评论(0) 推荐(0) 编辑

摘要: HTML基础 HTML(Hyper Text Markup Language)超文本标记语言 #HTML是一种用来描述网页的语言,HTML之于网页就好比建筑图纸之于建筑 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 阅读全文

posted @ 2019-08-31 11:55 CH-TNT 阅读(405) 评论(0) 推荐(0) 编辑

摘要: # HTTP响应状态码 ## 1xx:临时响应 #### 表示临时响应并需要请求者继续执行操作的状态代码。 100 **继续**请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 101 **切换协议**请求者已要求服务器切换协议,服务器已确认并准备切换。 ## 2 阅读全文

posted @ 2019-08-31 11:41 CH-TNT 阅读(1590) 评论(0) 推荐(0) 编辑

摘要: 爬虫的工作原理 首先,爬虫可以模拟浏览器去向服务器发出请求; 其次,等服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据; 接着,爬虫可以根据我们设定的规则批量提取相关数据,而不需要我们去手动提取; 最后,爬虫可以批量地把数据存储到本地 爬虫的步骤 第0步:获取数据。爬虫程序会根据我们提供的网址, 阅读全文

posted @ 2019-08-31 11:38 CH-TNT 阅读(511) 评论(0) 推荐(0) 编辑