随笔分类 -  数据分析与挖掘

时下大热的数据潮流,有枯燥概念,有算法笔记,有代码实现,简繁不一
摘要:在爬虫开发时,我们时常会遇到各种BUG各种问题,下面是我初步汇总的一些报错和解决方案。 在以后的学习中,如果遇到其他问题,我也会在这里进行更新。 各位如有什么补充,欢迎评论区留言~~~ 问题: IP被封,或者因访问频率太高被拦截??? 解决方案之一: 使用代理IP即可。 问题: 正确使用XPath之 阅读全文
posted @ 2019-12-25 10:43 WoLykos 阅读(2616) 评论(0) 推荐(0) 编辑
摘要:这一次呢,让我们来试一下“CSDN热门文章的抓取”。 话不多说,让我们直接进入 "CSND官网" 。 (其实是因为我被阿里的反爬磨到没脾气,不想说话……) 一、URL分析 输入“Python”并点击搜索: 便得到了所有关于“Python”的热门博客,包括 [ 标题,网址、阅读数 ] 等等,我们的任务 阅读全文
posted @ 2019-12-25 10:36 WoLykos 阅读(2144) 评论(0) 推荐(0) 编辑
摘要:在 "《Python爬虫实战—— Request对象之header伪装策略》" 中,我们就已经讲到:==“在header当中,我们经常会添加两个参数——cookie 和 User Agent,来模拟浏览器登录,以此提高绕过后台服务器反爬策略的可能性。”== User Agent已经讲过,这篇我们则主 阅读全文
posted @ 2019-12-25 10:27 WoLykos 阅读(727) 评论(1) 推荐(0) 编辑
摘要:作为进阶的最后一篇,我们就讲个有意思点的案例吧——百度翻译。 一、分析URL接口 正如 "上一篇:《Python爬虫进阶——Get请求》" 讲到的:当我们进行爬虫开发的时候,首先要做的,就是分析URL接口。 1. 打开 "百度翻译" ; 2. F12; 3. 开发者工具中点击“暂停”和“清空”; 4 阅读全文
posted @ 2019-12-25 10:17 WoLykos 阅读(870) 评论(0) 推荐(0) 编辑
摘要:在上一篇中,我们是通过 直接访问的网页地址,但在实际应用中,我们更多地使用 对象,因为其可以封装headers和data。 一、Request类的参数 注意: :访问的URL地址; :像URL地址发送的数据,无则为GET,有则为POST; :请求头,类型为字典; :日常不用,忽略; :日常不用,忽略 阅读全文
posted @ 2019-12-25 10:15 WoLykos 阅读(1650) 评论(0) 推荐(0) 编辑
摘要:如果一个网站采用前端渲染,那么这个网站的前端会访问后端的一些接口,然后拿到后端向前端返回的数据(一般都是Json类型,Json对象的本质其实是一个bytes字节流,但我们可以通过转码的方式,把它转成str),再把Json数据交给JS,JS对其进行解析,最终渲染页面。 这就是前端渲染的一个流程。 很多 阅读全文
posted @ 2019-12-25 10:10 WoLykos 阅读(614) 评论(0) 推荐(0) 编辑
摘要:XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂; XPath:语法简单,可以满足绝大部分的需求,但不能爬取注释代码(下一篇会讲到); 所以,如果你可以根据自己的需要进行选择。 一、首先,我们需要为Google浏览器配置XPath插件: 请自行学习,效果如下: 阅读全文
posted @ 2019-12-20 11:19 WoLykos 阅读(594) 评论(0) 推荐(0) 编辑
摘要:re是Python的一个第三方库。 为了能更直观的看出re的效果,我们先新建一个HTML网页文件(可直接复制): index.html OK,然后我们进入主题。 re主要有三个功能:提取、匹配、替换。 1、提取findall: 注意:返回的类型是列表 我们应如何取出上文index.html中的Ema 阅读全文
posted @ 2019-12-19 23:39 WoLykos 阅读(5045) 评论(0) 推荐(0) 编辑
摘要:说到爬虫,不可避免的会牵涉到正则表达式。 因为你需要清晰地知道你需要爬取什么信息?它们有什么共同点?可以怎么去表示它们? 而这些,都需要我们熟悉正则表达,才能更好地去提取。 先简单复习一下各表达式所代表的意思: 案例: 定义密码的正则表达式: 表达式为: 或 匹配div标签,class="class 阅读全文
posted @ 2019-12-19 22:47 WoLykos 阅读(315) 评论(0) 推荐(0) 编辑
摘要:一、HTML HTML是Hyper Text Markup Language(超文本标记语言)的缩写。 HTML不是一种编程语言,而是标记语言。 HTML的语法 双标签: 单标签: HTML的元素和属性 元素 HTML的结构 ``————文件为html文件 ``————语言类型:英语 ``————头 阅读全文
posted @ 2019-12-19 20:23 WoLykos 阅读(1020) 评论(0) 推荐(0) 编辑
摘要:woe全称是“Weight of Evidence”,即证据权重,是对原始自变量的一种编码形式。 进行WOE编码前,需要先把这个变量进行分组处理(离散化) 其中,pyi是这个组中响应客户(即模型中预测变量取值为“是”或1的个体,也叫坏样本)占所有样本中所有响应客户的比例,pni是这个组中未响应客户( 阅读全文
posted @ 2018-09-04 15:35 WoLykos 阅读(3686) 评论(0) 推荐(0) 编辑
摘要:一、数据读取 1、读写数据库数据 读取函数: pandas.read_sql_table(table_name, con, schema=None, index_col=None, coerce_float=True, columns=None) pandas.read_sql_query(sql, 阅读全文
posted @ 2018-09-04 10:22 WoLykos 阅读(1886) 评论(0) 推荐(0) 编辑
摘要:分类模型构建 分类是指构造一个分类模型,输入样本的特征值,输出对应的类别,将每个样本映射到预先定义好的类别中。分类模型若建立在已有类标记的数据集上,则属于有监督学习。在实际应用场景中,分类算法被用于行为分析,物品识别,图像检测等。 | 模块 | 函数 | 算法名称 | | | | | | linea 阅读全文
posted @ 2018-08-31 16:31 WoLykos 阅读(3049) 评论(0) 推荐(1) 编辑
摘要:回归模型构建 | 模块 | 函数 | 算法名称 | 简称 | | | | | | | linear_model | LinearRegression | 线性回归 | LR | | svm | SVR | 支持向量机回归 | SVM | | neighbors | KNeighborsRegress 阅读全文
posted @ 2018-08-31 14:57 WoLykos 阅读(1289) 评论(0) 推荐(0) 编辑
摘要:忙了许久,总算是又想起这边还没写完呢。 那今天就写写sklearn库的一部分简单内容吧,包括数据集调用,聚类,轮廓系数等等。   自带数据集API | 数据集函数 | 中文翻译 | 任务类型 | 数据规模 | | | | | | | load_boston | Boston房屋价格 | 回 阅读全文
posted @ 2018-08-31 10:45 WoLykos 阅读(3416) 评论(0) 推荐(0) 编辑
摘要:数据集划分 一般在日常工作中我们会将数据集拆分为训练集(train_set)和测试集(test_set) 训练集:一般用于训练模型,需要尽可能保证训练的数据具有代表性。 测试集:用于测试模型,检测模型的性能(包括了运行时间,模型的效果等) trian_test_split( arrays,train 阅读全文
posted @ 2018-08-31 09:57 WoLykos 阅读(1139) 评论(0) 推荐(0) 编辑
摘要:创建画布或子图 函数名称函数作用 plt.figure 创建一个空白画布,可以指定画布大小,像素。 figure.add_subplot 创建并选中子图,可以指定子图的行数,列数,与选中图片编号。 创建画布或子图 函数名称函数作用 plt.figure 创建一个空白画布,可以指定画布大小,像素。 f 阅读全文
posted @ 2018-08-04 09:50 WoLykos 阅读(790) 评论(0) 推荐(0) 编辑
摘要:1透视表 数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。 之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。 数据分析中的透析表十分强大,甚至可以 阅读全文
posted @ 2018-08-04 09:25 WoLykos 阅读(1522) 评论(1) 推荐(0) 编辑
摘要:1哑变量处理 也叫独热编码,英文:One-hot Encoding。可将任意离散型数据变为0-1数值。 哑变量函数: pd.get_dummies(data, prefix=None, prefixsep='', dummy_na=False, columns=None, sparse=False, 阅读全文
posted @ 2018-07-30 20:39 WoLykos 阅读(1696) 评论(0) 推荐(0) 编辑
摘要:1数据堆叠 数据堆叠分为以下两种: 行堆叠 列堆叠 行堆叠 列堆叠 pd.concat(objs, axis=0) objs:参与合并的多个DataFrame。无默认 axis:表示轴向,axis=0表示行合并,axis=1表示列合并 当然,如果axis=0(行堆叠)时,也可以使用append函数 阅读全文
posted @ 2018-07-28 15:42 WoLykos 阅读(776) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示