爬虫 - 随笔分类 - 一男、

爬虫——Scrapy中选择器的基本使用(转)

摘要：原文链接https://www.cnblogs.com/zhaof/p/7189860.html Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML 阅读全文

posted @ 2019-09-27 17:04 一男、阅读(284) 评论(0) 推荐(0)

爬虫——Scrapy命令行常用操作(转)

摘要：原文链接：https://www.cnblogs.com/shuimohei/p/10495900.html 阅读全文

posted @ 2019-09-27 16:01 一男、阅读(433) 评论(0) 推荐(0)

爬虫——BeautifulSoup初识

摘要：BeautifulSoup是一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取。 Quick Start 直接通过官方文档的例子，大致了解一下给出一段html，我们开始从中捕获一些信息，使用BeautifulSoup解析这段代码,能够得到一阅读全文

posted @ 2019-09-27 14:24 一男、阅读(215) 评论(0) 推荐(0)

爬虫——Requests库初识

摘要：1.Requests是什么首先Requests是HTTP库，在爬虫中用于请求的相关功能。而且requests是python实现的最简单易用的HTTP库，建议爬虫使用requests库。默认安装好python之后，是没有安装requests模块的，需要单独通过pip安装。 2.Requests的阅读全文

posted @ 2019-09-27 10:13 一男、阅读(251) 评论(0) 推荐(0)

爬虫——爬虫初识

摘要：1.概念 1.1什么是爬虫网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。 1.2爬虫有什么用爬虫是为了获取数据，比如你想在网页上下载一些图片，一张一张的手动下载又太慢，阅读全文

posted @ 2019-09-26 19:19 一男、阅读(193) 评论(0) 推荐(0)

爬虫——HTTP协议初体验

摘要：1.HTTP协议 1.1概念 HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。 HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件阅读全文

posted @ 2019-09-24 17:56 一男、阅读(292) 评论(0) 推荐(0)

一男笔记

快乐、享受、随心...，但还是要努力！

随笔分类 - 爬虫

公告