11 2019 档案

摘要:1.爬虫的定义:脚本,程序 >自动抓取万维网上信息的程序。 2、爬虫可以解决的问题: (1)解决冷启动的问题。(初创网站没有自己的信息直接爬取其他平台获取信息) (2)搜索引擎的根基。做搜索引擎,必须使用爬虫。 (3)帮助机器学习建立知识图谱。 机器学习最终的是训练集。训练集可以靠爬虫爬去。 (4) 阅读全文
posted @ 2019-11-29 22:44 佑神 阅读(90) 评论(0) 推荐(0)
摘要:requests模块 1、get请求: (1)使用步骤: #1、导包: import requests #2、发送请求,获取响应 response = requests.get(url) #3、获取响应内容 response.text (2)get请求详细参数 requests.get( url=请 阅读全文
posted @ 2019-11-29 22:39 佑神 阅读(191) 评论(0) 推荐(0)
摘要:一、anaconda的介绍安装。 Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,极其适合爬虫工程师。 (1)安装可执行程序 Anaconda下载地址: http://continuum.io/downloads(2)配置环境变量 阅读全文
posted @ 2019-11-29 22:19 佑神 阅读(677) 评论(0) 推荐(0)
摘要:http是一种约束发布和接收html页面的协议。 http端口号:80 https端口号:443 http协议属性:(1)应用层协议 (2)无连接:http1.0以前每次发送http均是单独连接,http1.1以后发送http会设置一个请求头Connection保持与服务器的长连接 (3)无状态:h 阅读全文
posted @ 2019-11-28 21:51 佑神 阅读(228) 评论(0) 推荐(0)
摘要:搜索引擎就是运行一些策略和算法,从互联网上获取网页信息,并将这些信息进行一些处理后保存,供用户检索的程序和系统。 搜索引擎的主要组成是通用爬虫。 通用爬虫:是指将网页整体从网络上爬取下来的程序。 搜索引擎能够获取所有网页的原因:搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地! 网页网址的来 阅读全文
posted @ 2019-11-28 20:35 佑神 阅读(1354) 评论(0) 推荐(0)