摘要: 一. 一元线性回归 对于线性回归最简单的就是一元线性回归,我们先拿一元线性回归作为入门的例子,等理解了这个,对于多元线性回归也就好理解了,都是一样的道理(对不起大家字写的不好!) 1.1官方定义 百科的定义:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析 阅读全文
posted @ 2020-03-19 19:37 TTT周清风 阅读(1334) 评论(0) 推荐(0) 编辑
摘要: 1.问题 说到k-means聚类算法,想必大家已经对它很熟悉了,它是基于距离计算的经典无监督算法,但是有一次在我接受面试时,面试官问了我一个问题:“k-means为什么不能使用曼哈顿距离计算,而使用欧式距离进行计算?”,当时我顿时懵了,心想:‘难道不都可以吗?’,我只能说都可以,然后面试官给了我一个 阅读全文
posted @ 2020-03-02 23:43 TTT周清风 阅读(3830) 评论(0) 推荐(2) 编辑
摘要: 说明:本文重在说明交易数据统计、分析方法,所有数据均为生成的数据 时间原因代码未定义成函数 统计指标:1.用户单日交易行为数据 2.按小时为计算单位,统计用户行为数据(旨在求得一天24小时中每个小时的交易金额、交易量和后再做统计计算) 获取数据代码如下: 在juoyter-notebook中 导入所 阅读全文
posted @ 2019-05-17 11:13 TTT周清风 阅读(723) 评论(0) 推荐(0) 编辑
摘要: 备注还没来得及写,共爬取八千多的歌手,每名歌手平均三十首歌曲算,大概二十多万首歌曲 run.py kugou.py items.py pipelines.py settings.py 阅读全文
posted @ 2018-09-13 09:03 TTT周清风 阅读(830) 评论(0) 推荐(0) 编辑
摘要: 上面的代码等价于下面的代码: 两者的运行结果也都是一样的: 主函数运行之前None 也许你会很奇怪,为什么用print(test(2, 3, 4, ))会返回None,我当时也是一头雾水,下面我就解释一下这是为什么,这还是跑不了装饰器原理,一定要理解其原理。 以上面的两段代码为例,@foo替代了te 阅读全文
posted @ 2018-07-29 17:50 TTT周清风 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 留存率作用 用户留存率体现用户粘性,提高用户留存率可创造更大的价值 ,通常观察次日留存(1日留存)3日留存、7日留存、30日留存,根据不同的业务场景还有更久的周期。 用户留存在互联网行业中是重点核心指标,每一位数据分析小伙伴都要掌握并经常分析。 mysql计算留存率的写法 假设我们计算用户注册后,的 阅读全文
posted @ 2022-05-27 18:17 TTT周清风 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 本文由于没有现成的数据,就自己生成了一些商品订单数据,基于该数据进行了RFM和聚类的构建 1.数据的生成 数据库表操作 1 use my_work; 2 3 -- 创建商品订单表 4 CREATE table goods_orders_ful( 5 user_id varchar(100), -- 阅读全文
posted @ 2020-07-26 22:02 TTT周清风 阅读(1965) 评论(0) 推荐(0) 编辑
摘要: 区间估计 假设检验 阅读全文
posted @ 2020-07-21 20:53 TTT周清风 阅读(3222) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-07-19 23:20 TTT周清风 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 最近项目中用到了多进程来算模型的特征,看看python高级库的多进程与多线程的效率 1 from concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor 2 from concurrent import futures 3 阅读全文
posted @ 2020-06-04 23:05 TTT周清风 阅读(216) 评论(0) 推荐(0) 编辑
摘要: k-means应该是原来级别的聚类方法了,这整理下一个使用后验概率准确评测其精度的方法—高斯混合模型。 我们谈到了用 k-means 进行聚类的方法,这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 阅读全文
posted @ 2020-05-14 18:12 TTT周清风 阅读(494) 评论(0) 推荐(0) 编辑
摘要: OPTICS聚类算法原理 基础 OPTICS聚类算法是基于密度的聚类算法,全称是Ordering points to identify the clustering structure,目标是将空间中的数据按照密度分布进行聚类,其思想和DBSCAN非常类似,但是和DBSCAN不同的是,OPTICS算 阅读全文
posted @ 2020-05-14 17:47 TTT周清风 阅读(2522) 评论(0) 推荐(0) 编辑
摘要: 1 a = 1 2 print('a', a, id(a)) 3 b = a 4 a += 1 5 print('a', a, id(a)) 6 print('b', b, id(b)) 7 8 print('-' * 20) 9 a = a + 1 10 print('a', a, id(a)) 阅读全文
posted @ 2020-03-25 02:01 TTT周清风 阅读(515) 评论(0) 推荐(0) 编辑