摘要: <! done 小白学爬虫(六) 之 BeautifulSoup库的使用 上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 阅读全文
posted @ 2018-03-30 17:36 韦大仙 阅读(166) 评论(0) 推荐(0) 编辑
摘要: ! done 小白学爬虫(五) 之 正则的基本使用  什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则py 阅读全文
posted @ 2018-03-30 17:20 韦大仙 阅读(123) 评论(0) 推荐(0) 编辑
摘要: <! done 小白学爬虫(四) 之 Requests库的基本使用 什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的, 阅读全文
posted @ 2018-03-30 17:19 韦大仙 阅读(136) 评论(0) 推荐(0) 编辑
摘要: ! done 小白学爬虫(三) 之 Urllib库的基本使用  官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块u 阅读全文
posted @ 2018-03-30 17:17 韦大仙 阅读(159) 评论(0) 推荐(0) 编辑
摘要: <! done 小白学爬虫(二) 之爬虫的原理 在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待 阅读全文
posted @ 2018-03-30 16:58 韦大仙 阅读(115) 评论(0) 推荐(0) 编辑
摘要: ! done 小白学爬虫(一) 之初识爬虫   世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。 整理这个文档资料希望能对小伙伴有帮助。   什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中 阅读全文
posted @ 2018-03-30 16:54 韦大仙 阅读(149) 评论(0) 推荐(0) 编辑
摘要: MySQL 一种关系型数据库 database 数据库,简称DB databases 数据库的复数,代表多个数据库 net 网络/服务 start 启动 stop 停止 root MySQL数据库中的超级管理员 password 密码 localhost 本地服务器/本地主机 prompt 改变DO 阅读全文
posted @ 2018-03-30 16:26 韦大仙 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 生活不止眼前的苟且,还有诗和远方。 请根据给出的数据库表结构来回答相应问题: DEPT (DEPTNO INT, DNAME VARCHAR(14),LOC VARCHAR(13)); EMP (EMPNO INT,ENAME VARCHAR(10), JOB VARCHAR(9), MGR INT 阅读全文
posted @ 2018-03-30 15:57 韦大仙 阅读(1119) 评论(4) 推荐(1) 编辑