02 2024 档案
摘要:第 10 章 使用pyecharts 进行数据展示 10.1 安装 pyecharts pyecharts 是一个用于生成 Echarts 图表的类库, Echarts 是百度开源的一个数据可视化JS 库。用 Echarts 生成的图可视化效果非常好,pyecharts 可以与 Python 进行对
阅读全文
摘要:第 9章 数据分析案例:Python 岗位行情 9.1 数据爬取 (1)打开某招聘网站首页 https://www.lagou.com,选择“全国站”,在搜索栏输入 Python,单击“搜索”。 (2)滚动到底部可以看到只有 30 页。 (3)多次单击“下一页”,发现页面并没有全部刷新,猜测是 Aj
阅读全文
摘要:第 8章 Python 爬虫框架 Scrapy(下) 8.1 Scrapy 对接 Selenium 有一种反爬虫策略就是通过 JS 动态加载数据,应对这种策略的两种方法如下: 分析 Ajax 请求,找出请求接口的相关规则,直接去请求接口获取数据。 使用 Selenium 模拟浏览器渲染后抓取
阅读全文
摘要:第 7章 Python 爬虫框架 Scrapy(上) 编写爬虫可以看成行军打仗,基本的角色有两个:士兵和将军,士兵冲锋陷阵,而将军更多地是调兵遣将。框架就像一个将军,里面包含了爬虫的全部流程、异常处理和任务调度等。除了可以让我们少写一些烦琐的代码,学习框架还可以学到编程思想和提升编程能力。Pytho
阅读全文
摘要:第 6章 Python 应对反爬虫策略 爬取一个网站的基本步骤 (1)分析请求:URL 规则、请求头规则、请求参数规则。 (2)模拟请求:通过 Requests 库或 urllib 库来模拟请求。 (3)解析数据:获取请求返回的结果,利用 lxml、Beautiful Soup 或正则表达式提取需
阅读全文
摘要:第5章 用数据库存储数据 5.1 MySQL 数据库 用 CSV 和 Excel 存储数据有两个优点: 非开发人员也能看到数据,不需要额外的学习成本。 使用方便,数据存储在文件里,复制到其他设备上可以直接查看。 这种表格存储文件的形式适用于少量数据的情况,当记录很多、字段很多时,打开文件会非常慢,而
阅读全文
摘要:第4章 用 CSV 和 Excel 存储数据 4.1 用 CSV 文件存储数据 CSV(Comma-Separated Values)其实就是纯文本,用逗号分隔值,可以分隔成多个单元格。CSV 文件除了可以用普通的文本编辑工具打开,还能用 Excel 打开,但 CSV 和 Excel 有以下不同:
阅读全文
摘要:第 3章 Python 爬虫抓包与数据解析 3.1 抓包进阶 目前,我们已经会使用 Chrome 浏览器自带的开发者工具来抓取访问网页的数据包,但是这种抓包方法有局限性,比如只能监听一个浏览器选项卡,如果想监听多个选项卡,必须打开多个页面。 另外,随着智能手机的普及,企业也不像以前一样必须开发一个
阅读全文
摘要:第 2章Python 爬虫基本库的使用 爬虫并没有你想象中的复杂,很多初学者一开始就担忧,比如怎么写代码去构造请求,怎么把请求发出去,怎么接收服务器的响应,需不需要学习 TCP/IP 四层模型的每一层的作用。其实,你不用担忧那么多,Python 已经为我们提供了一个功能齐全的类库——urllib,你
阅读全文
摘要:第 1 章 Python 爬虫概念与 Web 基础 1.1 爬虫概念 1.1.1 什么是爬虫 爬虫,即网络爬虫,又称网络蜘蛛(Web Spider),是一种按照一定规则,用来自动浏览或抓取万维网数据的程序。可以把爬虫程序看成一个机器人,它的功能就是模拟人的行为去访问各种站点,或者带回一些与站点相关的
阅读全文