随笔分类 -  数据分析

摘要:[toc] 一、贝叶斯 简单地说,贝叶斯就是贝yes,见到贝克汉姆说了一句yes,研究的是这种概率事件。 开玩笑啦,贝叶斯原理是英国数学家托马斯·贝叶斯提出的,为了解决一个“逆概率”问题。 例如,一个男人发现了他老婆手机里有暧昧短信 ,计算他老婆出轨的概率。 现实生活中,我们很难知道事情的全貌,当不 阅读全文
posted @ 2020-03-30 15:21 雪山飞猪 阅读(3857) 评论(2) 推荐(0) 编辑
摘要:前言 我们平常玩游戏或者看电影的时候,会看到里面介绍各种人的能力指标,以百度百科提供的漫威人物能力数值为例,如下图 分别介绍了各个超级英雄的智力、力量、速度、耐力、能量发射、战斗技能。 但是吧,光是这样的表格,并不能很直观的看出英雄的能力,我们需要一个战斗力分布图。 话不多说,先上成品: 期望功能 阅读全文
posted @ 2020-02-28 11:52 雪山飞猪 阅读(2270) 评论(11) 推荐(3) 编辑
摘要:[toc] 有时候我们需要直接将获取到的内容直接显示出来,如果再新建一个文件再打开未免太麻烦,jupyter提供了几种方式可以比较方便的渲染html 一、渲染文本 将htm网页内容到%%html后面,示例如下 二、渲染变量 例如我们经常通过requests抓取网页,可以直接渲染出抓取到的内容,例如通 阅读全文
posted @ 2020-02-27 17:53 雪山飞猪 阅读(4316) 评论(0) 推荐(0) 编辑
摘要:[toc] 前言 Matplotlib是一个强大的可视化工具,是Python的绘图库,可与NumPy一起使用,提供了一种有效的MatLab开源替代方案,用来画图真的不要太香! 下面总结出常用的操作以及技巧,保证每个例子的代码都可以直接拿来运行。更多内容请查看 "官网" 一、如何添加标题 title 阅读全文
posted @ 2020-02-24 18:17 雪山飞猪 阅读(1759) 评论(2) 推荐(1) 编辑
摘要:[toc] 前言 Matplotlib的可以把很多张图画到一个显示界面,在作对比分析的时候非常有用。 对应的有plt的subplot和figure的add_subplo的方法,参数可以是一个三位数字(例如111),也可以是一个数组(例如[1,1,1]),3个数字分别代表 1. 子图总行数 2. 子图 阅读全文
posted @ 2020-02-23 23:14 雪山飞猪 阅读(19748) 评论(0) 推荐(5) 编辑
摘要:一、不变的招式 虽然数据分析,数据挖掘,一说预测看起来高大上,但是其实是有套路的,预测的代码大致都长下面这个样子 # 1.选择算法模型 model=new 算法模型() # 2.设置参数 # 3.开始训练(传入训练集特征train_x和训练集结果train_y) model.fit(train_x, 阅读全文
posted @ 2020-02-17 17:53 雪山飞猪 阅读(784) 评论(0) 推荐(0) 编辑
摘要:问题:matplotlib不能渲染中文 想设定为中文字体,网上搜索的方法几乎都是下面这样,已经把字体拷贝到了程序目录下了,然而并没有生效 解决 设置 和 下面是本人用的代码 阅读全文
posted @ 2020-02-16 17:02 雪山飞猪 阅读(2180) 评论(0) 推荐(0) 编辑
摘要:[toc] 前言 当我们想快速了解书籍、小说、电影剧本中的内容时,可以绘制 WordCloud 词云图,显示主要的关键词(高频词),可以非常直观地看到结果 核心代码 测试 ok,现在我们来传入一段文字,生成词云图片分析一下 运行结果如下 分析这张图片,不难看出:chenqionghe喜欢运动,有肌肉 阅读全文
posted @ 2020-02-15 17:53 雪山飞猪 阅读(1277) 评论(0) 推荐(0) 编辑
摘要:以下默认所有的操作都先导入了numpy、pandas、matplotlib、seaborn "matplotlib官网" [toc] 一、折线图 折线图可以用来表示数据随着时间变化的趋势 Matplotlib Seaborn 二、直方图 直方图是比较常见的视图,它是把横坐标等分成了一定数量的小区间, 阅读全文
posted @ 2020-02-03 09:23 雪山飞猪 阅读(7143) 评论(3) 推荐(1) 编辑
摘要:[toc] 一、时间序列是什么 时间序列在多个时间点观察或测量到的任何事物,很多都是固定频率出现 的,比如每15秒、每5分钟、每月。 padnas提供了一组标准的时间序列处理工具和数据算法,基本的时间序列类型是以时间戳为索引的Series。 当创建一个带有DatetimeIndex的Series时, 阅读全文
posted @ 2020-01-29 11:21 雪山飞猪 阅读(1473) 评论(0) 推荐(0) 编辑
摘要:可以说merge包含了join操作,支持两个df间行方向或列方向的拼接操作,默认列拼接,取交集,而join只是简化了merge的行拼接的操作 示例 定义一个left的DataFrame 定义一个right的DataFrame 然后,我们使用merge通过索引合并这两个Dataframe,如下 然后, 阅读全文
posted @ 2020-01-23 22:07 雪山飞猪 阅读(9597) 评论(0) 推荐(0) 编辑
摘要:[toc] 什么是NumPy NumPy是Python科学计算的基础包,不仅是python中使用最多的第三方库,还是SciPy、Pandas等数据科学的基础库。所提供的结构比Python自身的更高级、更高效。 可以说,NumPy所提供的数据结果是Python数据分析的基础。 标准的Python用列表 阅读全文
posted @ 2020-01-21 17:49 雪山飞猪 阅读(794) 评论(0) 推荐(0) 编辑
摘要:[toc] IPython是一个python的交互式shell,比python自带的shell好用得多,支持变量自动补全、自动缩进、直接运行shell命令、内置了许多很有用的功能和函数,让我们可以用更高的效率来使用python,同时也是利用Python进行科学计算和交互可视化的一个最佳的平台 一、显 阅读全文
posted @ 2020-01-21 11:29 雪山飞猪 阅读(434) 评论(0) 推荐(0) 编辑
摘要:[toc] 什么是Pandas Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 Pandas纳入了大量库和一些标准的数据模型,提供了大量能使我们快速便捷地处理数据的函数和方法。 主要包含两种数据类型:Series和DataFrame Series可以理解为dict 阅读全文
posted @ 2020-01-16 11:57 雪山飞猪 阅读(1072) 评论(0) 推荐(2) 编辑
摘要:jupyter是一种交互式计算和开发环境的笔记,ipython命令行比原生的python命令行更加友好和高效,还可以运行web版的界面,支持多语言,输出图形、音频、视频等功能。 一、安装 pip3 install --upgrade pip pip3 install jupyter 二、使用命令行 阅读全文
posted @ 2018-12-23 03:43 雪山飞猪 阅读(11033) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示