上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 54 下一页
摘要: matplotlib 是基于 python 的著名可视化图表库。经常用来配合其他数据分析工具使用,将分析的结果可视化。 ​ 但是,matplotlib 默认是不支持中文的,中文显示成方块或者乱码,如下图: ​ 让 matplotlib 支持中文也很简单,安装中文字体,并在引入库的设置引入的字体。 第 阅读全文
posted @ 2021-12-17 13:48 wang_yb 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 现在学校越来越重视孩子课外知识的掌握,给孩子挑选课外书一般都是参考学校或者家长之间的推荐。 有时,也会想看看在儿童阶段,目前到底流行的是些什么样的书。 ​ 于是,就简单写了这个小爬虫,采集了畅销童书的前20名。 要想采集更多的畅销童书,后者采集其他类型的畅销书,调整相应的参数和URL就可 阅读全文
posted @ 2021-12-06 15:36 wang_yb 阅读(397) 评论(0) 推荐(0) 编辑
摘要: curd-gen 项目 ​ curd-gen 项目的创建本来是为了做为 illuminant 项目的一个工具,用来生成前端增删改查页面中的基本代码。 ​ 最近,随着 antd Pro v5 的升级,将项目进行了升级,现在生成的都是 ts 代码。 这个项目的自动生成代码都是基于 golang 的标准库 阅读全文
posted @ 2021-11-08 15:54 wang_yb 阅读(1182) 评论(2) 推荐(0) 编辑
摘要: 1. 概述 前段时间在看一本很多人推荐的线性代数教材《线性代数应该这样学》第三版,这一版每个章节都有大量的习题。 官方网站上虽然按照章节提供了习题的答案,一来因为网站是国外的,访问不流畅,二来答案中还夹杂着广告,影响查看。 所以,想试着将答案爬取下来制作成pdf,查看起来方便,也不会受网络的影响。 阅读全文
posted @ 2021-10-08 17:32 wang_yb 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 王者荣耀是一直都挺喜欢的一个手游,玩了好几年,最近一段开始喜欢看比赛,所以想着采集点数据看看各个战队或者选手的情况。 顺便也练习练习 puppeteer 的使用。 数据来源于:尚牛电竞 。 2. 采集流程 王者荣耀最近正在进行的最大比赛就是 2021世冠杯,所以就选择采集这个赛事的数据。 阅读全文
posted @ 2021-08-21 00:44 wang_yb 阅读(1047) 评论(1) 推荐(0) 编辑
摘要: 1. 概述 京粉(https://union.jd.com/)是京东联盟下的网站,通过分享其中的商品链接可以赚取佣金,类似淘客联盟。 采集京粉的商品,既可以练习 puppeteer的使用,平时想在京东购物时,也能用得上(采集看看有类似商品的价格和评价)。 2. 主要流程 采集的流程很简单: 2.1 阅读全文
posted @ 2021-07-27 02:26 wang_yb 阅读(771) 评论(0) 推荐(0) 编辑
摘要: 概述 最近在学习python的各种数据分析库,为了尝试各种库中各种分析算法的效果,陆陆续续爬取了一些真实的数据来。 顺便也练习练习爬虫,踩了不少坑,后续将采集的经验逐步分享出来,希望能给后来者一些参考,也希望能够得到先驱者的指点! 采集工具 其实基本没用过什么现成的采集工具,都是自己通过编写代码来采 阅读全文
posted @ 2021-06-30 18:45 wang_yb 阅读(2064) 评论(2) 推荐(0) 编辑
摘要: 概要 实战过程 原始数据格式 涨跌幅分析 分析步骤 01:去除多余的列 分析步骤 02:币种列转为行,每个交易日一行数据 分析步骤 03:就是每天的涨跌幅 分析步骤 04:删除掉第一天的无效数据 分析步骤 05:币种行转列,方便按照涨跌幅排序 分析步骤 06:导出数据 可视化 总结 概要 最近在用 阅读全文
posted @ 2021-05-26 18:07 wang_yb 阅读(770) 评论(0) 推荐(0) 编辑
摘要: 概述 python 的 pandas 库用来处理表格类型(也就是矩阵)的数据非常方便, 这个库用来在可视化之前对数据进行变换,计算和汇总之类的操作再好不过。 下面整理了最近我在做数据分析的短视频时常用的一些方法。 读取数据文件 做视频之前,我采集的数据都是用 csv 格式保存的,这里主要演示 pan 阅读全文
posted @ 2021-04-26 22:06 wang_yb 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 数据来源 数据页面: 链家网南京(https://nj.lianjia.com/chengjiao/) 链家网数据量很大,这里只用南京的二手房成交数据。 如下图: 数据采集 链家网的页面数据比较整齐,采集很简单,为了避免影响别人使用,只采集的南京的二手房成交数据, 采集频率也很低,总共花了一下午才采 阅读全文
posted @ 2021-04-15 11:02 wang_yb 阅读(936) 评论(2) 推荐(0) 编辑
上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 54 下一页