摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、舆情分析 ### 舆情分析 ~~~ # 文本挖掘基本流程 ~~~ # 使用的数据是评论数据,即文本数据。 ~~~ # 文本数据的分析过程主要有:清洗,可视,这里针对中文文本。 ~~~ 清洗基本流程: ~~~ 替换非中英文字符为空格; ~~~ 分词(结巴jieba); ~~~ 去掉停用词(对描述和
阅读全文
摘要:一、市场机会点 ### 市场机会点 ~~~ # 业务逻辑 ~~~ # 子类目市场确定后(灭鼠杀虫剂市场): ~~~ 确定市场中最受欢迎的产品类别–>细分价格段–>属性进一步分析: ~~~ 什么样的价格作为主市场,什么样的商品符合大众口味。 ~~~ # 不同用途的商品定位: ~~~ 引流商品:价格低,
阅读全文
摘要:一、竞争分析 ### 竞争分析 ~~~ 依据之前的top100品牌数据,分析市场份额前三的商家:拜耳,科凌虫控,安速。 ### 分析流程 ~~~ 人群画像分析:三个品牌的人群特征基本一致(这里省略)。 ~~~ 品类分布:依据各个商家产品类别和适用对象的分布, ~~~ 理解每个品牌的产品分布情况(横向
阅读全文
摘要:一、电商文本挖掘 ### 电商文本挖掘 ~~~ # 业务背景 ~~~ # 分析流程概述 ~~~ 某电商产品数据分析流程: ~~~ 每个环节都有具体的要求,例如需求文档要求包含:目的,分析思路,预期效果。 ~~~ 业务部门出问题和需求,以及对算法&数据部门输出报告的理解和应用。 ### 中台介绍 ##
阅读全文
摘要:一、驱虫市场的潜力分析 ### 驱虫市场的潜力分析 import glob import os import pandas as pd import re import numpy as np import datetime as dt from sklearn.linear_model impor
阅读全文
摘要:一、数据介绍 ### 数据介绍 ~~~ # 数据来源 ~~~ 美国某保险公司,该公司的一款医疗产品准备上市。 ~~~ # 商品介绍 ~~~ 这是一款针对65岁人群推出的医疗附加险,销售渠道是直邮。 ~~~ # 商业目的 ~~~ 为该产品做用户画像,找到最具购买倾向的人群进行营销。 ~~~ 本次案例数
阅读全文
摘要:一、案例分析 ### 案例分析 ~~~ 我们可以大概判别哪些特征很可能和用户是否购买保险会有相关关系。 ~~~ 也可以结合我们的业务经验,以及数据可视化,特征工程方法,先行探索一下, ~~~ 这些特征中哪些特征更重要一些。 ~~~ 可以在建模之后,再回顾我们这里认为比较重要或不重要的特征,看一下判断
阅读全文
摘要:一、项目实战:用户分类 ### 用户分类(决策树) ### 行业背景 ### 业务环境 ~~~ # 宏观 ~~~ 中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距。 ~~~ # 业界 ~~~ 保险行业2018年保费规模为3.8万亿,同比增长不足4%, ~~~ 过去"短平快"的发展模
阅读全文
摘要:一、案例:基于轮廓系数来选择n_clusters ### 案例:基于轮廓系数来选择n_clusters ~~~ 我们通常会绘制轮廓系数分布图和聚类后的数据分布图来选择我们的最佳 n_clusters。 from sklearn.cluster import KMeans from sklearn.m
阅读全文
摘要:一、聚类算法的模型评估指标:轮廓系数 ### 聚类算法的模型评估指标:轮廓系数 ~~~ 不同于分类模型和回归,聚类算法的模型评估不是一件简单的事。 ~~~ 在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分, ~~~ 所以我们使用预测的准确度,混淆矩阵,ROC 曲线等等指标来进行评估, ~
阅读全文
摘要:一、使用sklearn实现K-Means ### 使用sklearn实现K-Means class sklearn.cluster.KMeans (n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precomp
阅读全文
摘要:一、Python实现 ### Python实现 ~~~ 现在我们尝试用手写 Python 代码来实现 Kmeans 算法。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from IPython.core
阅读全文
摘要:一、无监督学习算法 ### 无监督学习算法 ~~~ 决策树、线性和逻辑回归都是比较常用的机器学习算法,他们虽然有着不同的功能, ~~~ 但却都属于“有监督学习” 的⼀部分, ~~~ 即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。 ~~~ 机器学习当中,还有相当⼀部分算法属于 “无监督
阅读全文
摘要:一、逻辑回归的Scikit-Learn实现 ### 逻辑回归的Scikit-Learn实现 ~~~ # 参数详解 class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fi
阅读全文
摘要:一、梯度下降 ### 梯度下降(Gradient Descent) ~~~ 在求解机器学习算法的模型参数,即无约束优化问题时, ~~~ 梯度下降(Gradient Descent)是最常用的方法之一,接下来就对梯度下降进行介绍。 ### 梯度 ### 梯度下降和梯度上升 ~~~ 在机器学习算法中,在
阅读全文
摘要:一、扩展:岭回归和Lasso ### 扩展:岭回归和Lasso ~~~ # 解决共线性的问题的方法主要有以下三种: ~~~ 其⼀是在建模之前对各特征进行相关性检验,若存在多重共线性, ~~~ 则可考虑进⼀步对数据集进行SVD分解或PCA主成分分析, ~~~ 在SVD或PCA执行的过程中会对数据集进行
阅读全文
摘要:一、逻辑回归算法 ### 逻辑回归算法 ~~~ # 概述 ~~~ 分类技术是机器学习和数据挖掘应用中的重要组成部分。在数据科学中, 约70%的问题属于分类问题。 ~~~ 解决分类的算法也有很多种。 ~~~ 如:KNN,使距离计算来实现分类;决策树,通过构建直观易懂的树来实现分类。 ~~~ 这里我们要
阅读全文
摘要:一、多元线性回归Python实现 ### 多元线性回归Python实现 ~~~ # 利用矩阵乘法编写回归算法 ~~~ 多元线性回归的执行函数编写并不复杂,主要涉及大量的矩阵运算, ~~~ 需要借助Numpy中的矩阵数据格式来完成。首先执行标准化导入: import numpy as np impor
阅读全文
摘要:一、线性回归的Scikit-learn实现 ### 线性回归的Scikit-learn实现 ~~~ 使用scikit-learn算法库实现线性回归算法,并计算相应评价指标。 ~~~ 回顾前文介绍的相关知识进行下述计算。 from sklearn.linear_model import LinearR
阅读全文