09 2018 档案

摘要:分布 散点图:最大的作用是查看两个或多个变量的分布情况,可以查看数据之间的相关性(正相关,负相关),和拟合的回归线一起可以做残差分析 另一个常用的场景就是利用数据的分布,迅速找到规律和切分点(看是否有分簇) 变种:气泡图/四象限图 直方图:用来表示连续型数据分布情况 箱线图:用来显示数据的离散情况, 阅读全文
posted @ 2018-09-29 17:39 HuZihu 阅读(1007) 评论(0) 推荐(0) 编辑
摘要:三门问题(Monty Hall problem)也称为蒙提霍尔问题或蒙提霍尔悖论,出自美国的电视游戏节目《Let’s Make a Deal》。问题名字来自该节目的主持人蒙提·霍尔(Monty Hall)。 这个游戏的玩法是:参赛者会看见三扇关闭的门,其中一扇门后面有一辆汽车,选中后面有车的那扇门就 阅读全文
posted @ 2018-09-27 21:24 HuZihu 阅读(2455) 评论(0) 推荐(0) 编辑
摘要:这里用文氏图(Venn diagram)来推导一下贝叶斯定理。 假设A和B为两个不相互独立的事件。 交集(intersection): 上图红色部分即为事件A和事件B的交集。 并集(union): 由Venn diagram可以看出,在事件B已经发生的情况下,事件A发生的概率为事件A和事件B的交集除 阅读全文
posted @ 2018-09-25 22:00 HuZihu 阅读(17666) 评论(1) 推荐(0) 编辑
摘要:画词云首先需要安装wordcloud(生成词云)和jieba(中文分词)。 先来说说wordcloud的安装吧,真是一波三折。首先用pip install wordcloud出现错误,说需要安装Visual C++ 14.0。折腾半天安装好Visual C++后,还是不行,按网上指点,下载第三方包安 阅读全文
posted @ 2018-09-21 12:18 HuZihu 阅读(6376) 评论(0) 推荐(0) 编辑
摘要:这里利用ben的项目(https://github.com/ben519/DataWrangling/blob/master/Python/README.md),在此基础上增添了一些内容,来演示数据清洗的主要工作。 以下是一份简单的交易数据,包括交易单号,交易日期,产品序号,交易数量,单价,总价。 阅读全文
posted @ 2018-09-18 17:24 HuZihu 阅读(1094) 评论(0) 推荐(0) 编辑
摘要:假设有一段文本:"I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段文本的特征呢? 一个简单的方法就是使用词袋模型(bag of words mode 阅读全文
posted @ 2018-09-05 22:47 HuZihu 阅读(6201) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示