随笔档案「2019年11月」 - 佑神

初识爬虫

摘要：1.爬虫的定义：脚本，程序 >自动抓取万维网上信息的程序。 2、爬虫可以解决的问题：（1）解决冷启动的问题。（初创网站没有自己的信息直接爬取其他平台获取信息）（2）搜索引擎的根基。做搜索引擎，必须使用爬虫。（3）帮助机器学习建立知识图谱。机器学习最终的是训练集。训练集可以靠爬虫爬去。（4）阅读全文

posted @ 2019-11-29 22:44 佑神阅读(90) 评论(0) 推荐(0)

使用requests模块进行初步爬虫

摘要：requests模块 1、get请求： (1)使用步骤： #1、导包： import requests #2、发送请求，获取响应 response = requests.get(url) #3、获取响应内容 response.text （2）get请求详细参数 requests.get( url=请阅读全文

posted @ 2019-11-29 22:39 佑神阅读(191) 评论(0) 推荐(0)

爬虫必备anaconda

摘要：一、anaconda的介绍安装。 Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，极其适合爬虫工程师。（1）安装可执行程序 Anaconda下载地址： http://continuum.io/downloads（2）配置环境变量阅读全文

posted @ 2019-11-29 22:19 佑神阅读(677) 评论(0) 推荐(0)

http和https

摘要：http是一种约束发布和接收html页面的协议。 http端口号：80 https端口号：443 http协议属性：（1）应用层协议（2）无连接：http1.0以前每次发送http均是单独连接，http1.1以后发送http会设置一个请求头Connection保持与服务器的长连接（3）无状态：h 阅读全文

posted @ 2019-11-28 21:51 佑神阅读(228) 评论(0) 推荐(0)

什么是搜索引擎？

摘要：搜索引擎就是运行一些策略和算法，从互联网上获取网页信息，并将这些信息进行一些处理后保存，供用户检索的程序和系统。搜索引擎的主要组成是通用爬虫。通用爬虫：是指将网页整体从网络上爬取下来的程序。搜索引擎能够获取所有网页的原因：搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地！网页网址的来阅读全文

posted @ 2019-11-28 20:35 佑神阅读(1354) 评论(0) 推荐(0)

佑神

11 2019 档案

公告