2022年5月23日

|NO.Z.00003|——————————|BigDataEnd|——|Arithmetic&TensorFlow.v03|——|TensorFlow:监督学习算法.v03|

摘要: 一、逻辑回归 ### 逻辑回归(分类) ~~~ 例如,零或一, True 或False ,是或否,猫或狗,或者它可以是两个以上的分类值; ~~~ 例如,红色,蓝色或绿色,或一,二,三,四或五。 ~~~ 标签通常具有与之相关的概率; 例如, P(cat = 0.92) ,P(dog = 0.08) 。 阅读全文

posted @ 2022-05-23 14:09 yanqi_vip 阅读(55) 评论(0) 推荐(0) 编辑

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-05-23 14:09 yanqi_vip 阅读(20) 评论(0) 推荐(0) 编辑

|NO.Z.00002|——————————|BigDataEnd|——|Arithmetic&TensorFlow.v02|——|TensorFlow:监督学习算法.v02|

摘要: 一、线性回归 ### 线性回归 ~~~ 线性回归是在给定一个或多个其他变量(数据点)的值的情况下,预测一个连续变量的值的问题。 ~~~ 例如,根据房屋的占地面积,预测房屋的售价。 ~~~ 在这个示例中,您可以将已知特征及其关联的标签绘制在简单的线性图上, ~~~ 如x, y 散点图,并在此基础上拟合 阅读全文

posted @ 2022-05-23 14:08 yanqi_vip 阅读(33) 评论(0) 推荐(0) 编辑

|NO.Z.00001|——————————|BigDataEnd|——|Arithmetic&TensorFlow.v01|——|TensorFlow:监督学习算法.v01|

摘要: 一、课程大纲 ### TensorFlow 监督学习算法 ~~~ # KNN(K最近邻算法) ~~~ 导入相关包 ~~~ 数据处理 ~~~ 划分数据集 ~~~ 建模 ### 线性回归 ~~~ 通过TensorFlow 实现线性回归 ~~~ 通过TensorFlow 预测房价 ### 逻辑回归(分类) 阅读全文

posted @ 2022-05-23 14:07 yanqi_vip 阅读(21) 评论(0) 推荐(0) 编辑

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-05-23 14:07 yanqi_vip 阅读(6) 评论(0) 推荐(0) 编辑

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-05-23 14:05 yanqi_vip 阅读(16) 评论(0) 推荐(0) 编辑

|NO.Z.00028|——————————|BigDataEnd|——|Arithmetic&Machine.v28|——|Machine:项目实战.v05|舆情分析|

摘要: 一、舆情分析 ### 舆情分析 ~~~ # 文本挖掘基本流程 ~~~ # 使用的数据是评论数据,即文本数据。 ~~~ # 文本数据的分析过程主要有:清洗,可视,这里针对中文文本。 ~~~ 清洗基本流程: ~~~ 替换非中英文字符为空格; ~~~ 分词(结巴jieba); ~~~ 去掉停用词(对描述和 阅读全文

posted @ 2022-05-23 14:05 yanqi_vip 阅读(31) 评论(0) 推荐(0) 编辑

|NO.Z.00026|——————————|BigDataEnd|——|Arithmetic&Machine.v26|——|Machine:项目实战.v03|市场机会点|

摘要: 一、市场机会点 ### 市场机会点 ~~~ # 业务逻辑 ~~~ # 子类目市场确定后(灭鼠杀虫剂市场): ~~~ 确定市场中最受欢迎的产品类别–>细分价格段–>属性进一步分析: ~~~ 什么样的价格作为主市场,什么样的商品符合大众口味。 ~~~ # 不同用途的商品定位: ~~~ 引流商品:价格低, 阅读全文

posted @ 2022-05-23 14:04 yanqi_vip 阅读(32) 评论(0) 推荐(0) 编辑

|NO.Z.00027|——————————|BigDataEnd|——|Arithmetic&Machine.v27|——|Machine:项目实战.v04|竞争分析|

摘要: 一、竞争分析 ### 竞争分析 ~~~ 依据之前的top100品牌数据,分析市场份额前三的商家:拜耳,科凌虫控,安速。 ### 分析流程 ~~~ 人群画像分析:三个品牌的人群特征基本一致(这里省略)。 ~~~ 品类分布:依据各个商家产品类别和适用对象的分布, ~~~ 理解每个品牌的产品分布情况(横向 阅读全文

posted @ 2022-05-23 14:04 yanqi_vip 阅读(99) 评论(0) 推荐(0) 编辑

|NO.Z.00024|——————————|BigDataEnd|——|Arithmetic&Machine.v24|——|Machine:项目实战.v01|电商文本挖掘|

摘要: 一、电商文本挖掘 ### 电商文本挖掘 ~~~ # 业务背景 ~~~ # 分析流程概述 ~~~ 某电商产品数据分析流程: ~~~ 每个环节都有具体的要求,例如需求文档要求包含:目的,分析思路,预期效果。 ~~~ 业务部门出问题和需求,以及对算法&数据部门输出报告的理解和应用。 ### 中台介绍 ## 阅读全文

posted @ 2022-05-23 14:03 yanqi_vip 阅读(44) 评论(0) 推荐(0) 编辑

|NO.Z.00025|——————————|BigDataEnd|——|Arithmetic&Machine.v25|——|Machine:项目实战.v02|驱虫市场的潜力分析|

摘要: 一、驱虫市场的潜力分析 ### 驱虫市场的潜力分析 import glob import os import pandas as pd import re import numpy as np import datetime as dt from sklearn.linear_model impor 阅读全文

posted @ 2022-05-23 14:03 yanqi_vip 阅读(17) 评论(0) 推荐(0) 编辑

|NO.Z.00022|——————————|BigDataEnd|——|Arithmetic&Machine.v22|——|Machine:项目实战.v02|数据介绍|

摘要: 一、数据介绍 ### 数据介绍 ~~~ # 数据来源 ~~~ 美国某保险公司,该公司的一款医疗产品准备上市。 ~~~ # 商品介绍 ~~~ 这是一款针对65岁人群推出的医疗附加险,销售渠道是直邮。 ~~~ # 商业目的 ~~~ 为该产品做用户画像,找到最具购买倾向的人群进行营销。 ~~~ 本次案例数 阅读全文

posted @ 2022-05-23 14:02 yanqi_vip 阅读(22) 评论(0) 推荐(0) 编辑

|NO.Z.00023|——————————|BigDataEnd|——|Arithmetic&Machine.v23|——|Machine:项目实战.v03|案例分析|

摘要: 一、案例分析 ### 案例分析 ~~~ 我们可以大概判别哪些特征很可能和用户是否购买保险会有相关关系。 ~~~ 也可以结合我们的业务经验,以及数据可视化,特征工程方法,先行探索一下, ~~~ 这些特征中哪些特征更重要一些。 ~~~ 可以在建模之后,再回顾我们这里认为比较重要或不重要的特征,看一下判断 阅读全文

posted @ 2022-05-23 14:02 yanqi_vip 阅读(25) 评论(0) 推荐(0) 编辑

|NO.Z.00021|——————————|BigDataEnd|——|Arithmetic&Machine.v21|——|Machine:项目实战.v01|用户分类|

摘要: 一、项目实战:用户分类 ### 用户分类(决策树) ### 行业背景 ### 业务环境 ~~~ # 宏观 ~~~ 中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距。 ~~~ # 业界 ~~~ 保险行业2018年保费规模为3.8万亿,同比增长不足4%, ~~~ 过去"短平快"的发展模 阅读全文

posted @ 2022-05-23 14:01 yanqi_vip 阅读(18) 评论(0) 推荐(0) 编辑

|NO.Z.00020|——————————|BigDataEnd|——|Arithmetic&Machine.v20|——|Machine:无监督学习算法.v05|

摘要: 一、案例:基于轮廓系数来选择n_clusters ### 案例:基于轮廓系数来选择n_clusters ~~~ 我们通常会绘制轮廓系数分布图和聚类后的数据分布图来选择我们的最佳 n_clusters。 from sklearn.cluster import KMeans from sklearn.m 阅读全文

posted @ 2022-05-23 14:00 yanqi_vip 阅读(14) 评论(0) 推荐(0) 编辑

|NO.Z.00019|——————————|BigDataEnd|——|Arithmetic&Machine.v19|——|Machine:无监督学习算法.v04|

摘要: 一、聚类算法的模型评估指标:轮廓系数 ### 聚类算法的模型评估指标:轮廓系数 ~~~ 不同于分类模型和回归,聚类算法的模型评估不是一件简单的事。 ~~~ 在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分, ~~~ 所以我们使用预测的准确度,混淆矩阵,ROC 曲线等等指标来进行评估, ~ 阅读全文

posted @ 2022-05-23 14:00 yanqi_vip 阅读(24) 评论(0) 推荐(0) 编辑

|NO.Z.00018|——————————|BigDataEnd|——|Arithmetic&Machine.v18|——|Machine:无监督学习算法.v03|

摘要: 一、使用sklearn实现K-Means ### 使用sklearn实现K-Means class sklearn.cluster.KMeans (n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precomp 阅读全文

posted @ 2022-05-23 13:59 yanqi_vip 阅读(24) 评论(0) 推荐(0) 编辑

|NO.Z.00017|——————————|BigDataEnd|——|Arithmetic&Machine.v17|——|Machine:无监督学习算法.v02|

摘要: 一、Python实现 ### Python实现 ~~~ 现在我们尝试用手写 Python 代码来实现 Kmeans 算法。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from IPython.core 阅读全文

posted @ 2022-05-23 13:58 yanqi_vip 阅读(47) 评论(0) 推荐(0) 编辑

|NO.Z.00016|——————————|BigDataEnd|——|Arithmetic&Machine.v16|——|Machine:无监督学习算法.v01|

摘要: 一、无监督学习算法 ### 无监督学习算法 ~~~ 决策树、线性和逻辑回归都是比较常用的机器学习算法,他们虽然有着不同的功能, ~~~ 但却都属于“有监督学习” 的⼀部分, ~~~ 即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。 ~~~ 机器学习当中,还有相当⼀部分算法属于 “无监督 阅读全文

posted @ 2022-05-23 13:57 yanqi_vip 阅读(19) 评论(0) 推荐(0) 编辑

2022年5月19日

|NO.Z.00015|——————————|BigDataEnd|——|Arithmetic&Machine.v15|——|Machine:逻辑回归算法.v03|

摘要: 一、逻辑回归的Scikit-Learn实现 ### 逻辑回归的Scikit-Learn实现 ~~~ # 参数详解 class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fi 阅读全文

posted @ 2022-05-19 22:04 yanqi_vip 阅读(15) 评论(0) 推荐(0) 编辑

|NO.Z.00014|——————————|BigDataEnd|——|Arithmetic&Machine.v14|——|Machine:逻辑回归算法.v02|

摘要: 一、梯度下降 ### 梯度下降(Gradient Descent) ~~~ 在求解机器学习算法的模型参数,即无约束优化问题时, ~~~ 梯度下降(Gradient Descent)是最常用的方法之一,接下来就对梯度下降进行介绍。 ### 梯度 ### 梯度下降和梯度上升 ~~~ 在机器学习算法中,在 阅读全文

posted @ 2022-05-19 22:03 yanqi_vip 阅读(14) 评论(0) 推荐(0) 编辑

|NO.Z.00012|——————————|BigDataEnd|——|Arithmetic&Machine.v12|——|Machine:监督学习算法.v11|

摘要: 一、扩展:岭回归和Lasso ### 扩展:岭回归和Lasso ~~~ # 解决共线性的问题的方法主要有以下三种: ~~~ 其⼀是在建模之前对各特征进行相关性检验,若存在多重共线性, ~~~ 则可考虑进⼀步对数据集进行SVD分解或PCA主成分分析, ~~~ 在SVD或PCA执行的过程中会对数据集进行 阅读全文

posted @ 2022-05-19 22:02 yanqi_vip 阅读(22) 评论(0) 推荐(0) 编辑

|NO.Z.00013|——————————|BigDataEnd|——|Arithmetic&Machine.v13|——|Machine:逻辑回归算法.v01|

摘要: 一、逻辑回归算法 ### 逻辑回归算法 ~~~ # 概述 ~~~ 分类技术是机器学习和数据挖掘应用中的重要组成部分。在数据科学中, 约70%的问题属于分类问题。 ~~~ 解决分类的算法也有很多种。 ~~~ 如:KNN,使距离计算来实现分类;决策树,通过构建直观易懂的树来实现分类。 ~~~ 这里我们要 阅读全文

posted @ 2022-05-19 22:02 yanqi_vip 阅读(22) 评论(0) 推荐(0) 编辑

|NO.Z.00010|——————————|BigDataEnd|——|Arithmetic&Machine.v10|——|Machine:监督学习算法.v09|

摘要: 一、多元线性回归Python实现 ### 多元线性回归Python实现 ~~~ # 利用矩阵乘法编写回归算法 ~~~ 多元线性回归的执行函数编写并不复杂,主要涉及大量的矩阵运算, ~~~ 需要借助Numpy中的矩阵数据格式来完成。首先执行标准化导入: import numpy as np impor 阅读全文

posted @ 2022-05-19 22:01 yanqi_vip 阅读(29) 评论(0) 推荐(0) 编辑

|NO.Z.00011|——————————|BigDataEnd|——|Arithmetic&Machine.v11|——|Machine:监督学习算法.v10|

摘要: 一、线性回归的Scikit-learn实现 ### 线性回归的Scikit-learn实现 ~~~ 使用scikit-learn算法库实现线性回归算法,并计算相应评价指标。 ~~~ 回顾前文介绍的相关知识进行下述计算。 from sklearn.linear_model import LinearR 阅读全文

posted @ 2022-05-19 22:01 yanqi_vip 阅读(24) 评论(0) 推荐(0) 编辑

|NO.Z.00007|——————————|BigDataEnd|——|Arithmetic&Machine.v07|——|Machine:监督学习算法.v06|

摘要: 一、分类模型的评估指标:样本不均匀问题 ### 分类模型的评估指标 ~~~ # 样本不均匀问题 ~~~ 对于分类问题,永远都逃不过的一个痛点就是样本不均衡问题。 ~~~ 样本不均衡是指在一组数据集中,标签的一类天生占有很大的比例, ~~~ 但我们有着捕捉出某种特定的分类的需求的状况。 ~~~ 比如, 阅读全文

posted @ 2022-05-19 22:00 yanqi_vip 阅读(24) 评论(0) 推荐(0) 编辑

|NO.Z.00008|——————————|BigDataEnd|——|Arithmetic&Machine.v08|——|Machine:监督学习算法.v07|

摘要: 一、决策树的算法评价 ### 决策树的算法评价 ~~~ # 决策树优点 ~~ 易于理解和解释,因为树木可以画出来被看见。 ~~ 需要很少的数据准备。其他很多算法通常都需要数据规范化,需要创建虚拟变量并删除空值等。 ~~~ 但请注意,sklearn 中的决策树模块不支持对缺失值的处理。 ~~ 使用树的 阅读全文

posted @ 2022-05-19 22:00 yanqi_vip 阅读(40) 评论(0) 推荐(0) 编辑

|NO.Z.00009|——————————|BigDataEnd|——|Arithmetic&Machine.v09|——|Machine:监督学习算法.v08|

摘要: 一、线性回归算法 ### 概述 ~~~ 在正式进入到回归分析的相关算法讨论之前, ~~~ 我们需要对有监督学习算法中的回归问题进行进一步的分析和理解。 ~~~ 虽然回归问题和分类问题同属于有监督学习范畴,但实际上,回归问题要远比分类问题更加复杂。 ~~~ 首先是关于输出结果的对比,分类模型最终输出结 阅读全文

posted @ 2022-05-19 22:00 yanqi_vip 阅读(19) 评论(0) 推荐(0) 编辑

|NO.Z.00006|——————————|BigDataEnd|——|Arithmetic&Machine.v06|——|Machine:监督学习算法.v05|

摘要: 一、使用SK-LEARN实现决策树:参数CRITERION ### 使用SK-LEARN实现决策树 ~~~ # 参数CRITERION ~~~ # criterion 这个参数是用来决定不纯度的计算方法。sklearn 提供了两种选择: ~~~ 输入 “entropy”,使用信息熵(Entropy) 阅读全文

posted @ 2022-05-19 21:59 yanqi_vip 阅读(22) 评论(0) 推荐(0) 编辑

|NO.Z.00005|——————————|BigDataEnd|——|Arithmetic&Machine.v05|——|Machine:监督学习算法.v04|

摘要: 一、决策树:决策树基本流程 ### 决策树 ~~~ # 决策树模型 ~~~ 树模型是有监督学习类算法中应用广泛的一类模型,同时可应用于分类问题和回归问题, ~~~ 其中用于解决分类问题的树模型常被称为分类树,而用于解决回归类问题的树模型被称作回归树。 ~~~ 树模型通过递归式切割的方法来寻找最佳分类 阅读全文

posted @ 2022-05-19 21:58 yanqi_vip 阅读(33) 评论(0) 推荐(0) 编辑

|NO.Z.00004|——————————|BigDataEnd|——|Arithmetic&Machine.v04|——|Machine:监督学习算法.v03|

摘要: 一、归一化 ### 归一化 ~~~ # 距离类模型归一化的要求 ~~~ 什么是归一化?我们把 X 放到数据框中来看一眼,你是否观察到,每个特征的均值差异很大? ~~~ 有的特征数值很大,有的特征数值很小,这种现象在机器学习中被称为"量纲不统一"。 ~~~ KNN 是距离类模型,欧氏距离的计算公式中存 阅读全文

posted @ 2022-05-19 21:57 yanqi_vip 阅读(22) 评论(0) 推荐(0) 编辑

|NO.Z.00003|——————————|BigDataEnd|——|Arithmetic&Machine.v03|——|Machine:监督学习算法.v02|

摘要: 一、选择最优K值 ### 选择最优K值 ~~~ KNN 中的 k 是一个超参数,所谓“超参数”,就是需要人为输入,算法不能通过直接计算得出的参数。 ~~~ KNN 中的 k 代表的是距离需要分类的测试点 x 最近的 k 个样本点, ~~~ 如果不输入这个值,那么算法中重要部分 “选出 k 个最近邻” 阅读全文

posted @ 2022-05-19 21:56 yanqi_vip 阅读(29) 评论(0) 推荐(0) 编辑

|NO.Z.00002|——————————|BigDataEnd|——|Arithmetic&Machine.v02|——|Machine:监督学习算法.v01|

摘要: 一、监督学习算法:KNN/K近邻算法:算法原理 ### KNN/K近邻算法 ~~~ # 算法原理 ~~~ 它的本质是通过距离判断两个样本是否相似,如果距离够近就认为他们足够相似属于同一类别。 ~~~ 当然只对比一个样本是不够的,误差会很大,我们需要找到离其最近的 k 个样本, ~~~ 并将这些样本称 阅读全文

posted @ 2022-05-19 21:56 yanqi_vip 阅读(16) 评论(0) 推荐(0) 编辑

|NO.Z.00001|——————————|BigDataEnd|——|Arithmetic&Machine.v01|——|Machine:机器学习算法体系|

摘要: 一、前言: 机器学习理论基础 ### 案例说明 ~~~ # 在一个酒吧里,吧台上摆着十杯几乎一样的红酒,老板跟你打趣说想不想来玩个游戏, ~~~ 赢了免费喝酒,输了付3倍酒钱,那么赢的概率是多少? ~~~ # 你是个爱冒险的人,果断说玩! ~~~ # 老板接着道:你眼前的这十杯红酒,每杯略不相同, 阅读全文

posted @ 2022-05-19 21:55 yanqi_vip 阅读(21) 评论(0) 推荐(0) 编辑

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-05-19 21:54 yanqi_vip 阅读(6) 评论(0) 推荐(0) 编辑

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-05-19 21:51 yanqi_vip 阅读(3) 评论(0) 推荐(0) 编辑

|NO.Z.00006|——————————|BigDataEnd|——|Arithmetic&statistics.v02|——|statistical:spss25安装教程|

摘要: 一、安装spss_statistics ### 下载教程 ~~~ 官网地址:https://www.ibm.com/cn-zh/analytics/spss-statistics-software 二、安装spss25 path 三、启动spss 四、初始状态页面,试用期有效期5000天,足够!!! 阅读全文

posted @ 2022-05-19 21:51 yanqi_vip 阅读(36) 评论(0) 推荐(0) 编辑

|NO.Z.00003|——————————|BigDataEnd|——|Arithmetic&statistics.v03|——|statistical:APP用户数预测|

摘要: 三、APP用户数预测 Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the f 阅读全文

posted @ 2022-05-19 21:50 yanqi_vip 阅读(5) 评论(0) 推荐(0) 编辑

|NO.Z.00005|——————————|BigDataEnd|——|Arithmetic&statistics.v01|——|statistical:基础|

摘要: 一、描述统计:变量测量尺度 ### 描述统计:变量测量尺度 ~~~ 定类尺度功能:分类作用,比如性别 ~~~ 定序尺度功能:分类、排序作用、比如喜欢的艺人、年级 ~~~ 定距尺度功能:分类、排序、加减、比如温度 ~~~ 定比尺度功能:分类、排序、加减、乘除 ~~~ # 定类与定序合成分类变量、定距与 阅读全文

posted @ 2022-05-19 21:50 yanqi_vip 阅读(20) 评论(0) 推荐(0) 编辑

|NO.Z.00004|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-05-19 21:50 yanqi_vip 阅读(10) 评论(0) 推荐(0) 编辑

导航