上一页 1 2 3 4 5 6 7 8 9 ··· 44 下一页
摘要: 统计概率 统计学和概率论 使用统计思维来分析数据,而不是一头雾水,使用统计的工具,来分析数据。 概率来描述不确定性:数据挖掘和机器学习得到的模型都是一种概率。 大纲: 统计概率: 描述统计:表格法和图形法 描述统计:数值方法 概率 离散型的概率分布 连续型的概率分布 估计: 抽样和抽样分布 区间估计 阅读全文
posted @ 2020-03-15 11:41 Mr-chen 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 是数据挖掘的基础。 数值数据: 用于运算 分类数据:group by, 文本数据。 分类数据描述统计 频数统计: 单纯对各个分类计数。count 百分比。 数值数据描述统计 统计度量: 平均数 中位数median(比平均数更真实反应情况)。如果平均数<>中位数,代表数值分布有倾斜,更多数值靠近中位数 阅读全文
posted @ 2020-03-13 20:45 Mr-chen 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: https://github.com/pyecharts/pyecharts 文档:https://pyecharts.org/#/zh-cn/intro python+echarts的合集。 动态绘制出图。 Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众 阅读全文
posted @ 2020-03-11 15:32 Mr-chen 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 简单地说,MapReduce就是"任务的分解与结果的汇总"。 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析 应用”的核心框架。MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各 阅读全文
posted @ 2020-03-06 09:33 Mr-chen 阅读(697) 评论(0) 推荐(0) 编辑
摘要: 函数 内置函数 自定义 cli命令 show functions [like "<pattern>"] 会列出所有函数,包括自定义函数。可以用正则检索。 desc function fun_name :显示简单的信息介绍 desc function extended fun_name :显示详细介绍 阅读全文
posted @ 2020-03-06 09:19 Mr-chen 阅读(1193) 评论(0) 推荐(1) 编辑
摘要: Hive 非官网中文:http://codingdict.com/article/8150 官网英文:https://www.tutorialspoint.com/hive/hive_introduction.htm (包括安装教程) 文档:https://cwiki.apache.org/conf 阅读全文
posted @ 2020-02-26 16:55 Mr-chen 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 所有的macos命令:https://ss64.com/osx/ say say 让命令行说话 say是一个文本转语音(TTS)的 mac 命令行工具,直接在后边跟上一段话,电脑就会开始朗读: -> say "Hello 主人" 使用-f参数选择朗读的文本文件,然后用-o参数将朗读结果存储为某个音频 阅读全文
posted @ 2020-02-25 11:50 Mr-chen 阅读(2689) 评论(0) 推荐(0) 编辑
摘要: 数据蛙视频教程摘录 点击:《git上总结可视化知识大全》 附加-数据可视化之美: 例子:地铁图,拟真距离,这是因为乘客关心的是从起点到终点,需要换乘哪几条线最方便,不会考虑行进了多少公里。所以地铁图,是一定程度上的模拟真实距离,但不是完全真实,不像baidu地图上左下脚有图标:一条横线表示距离。 让 阅读全文
posted @ 2020-02-20 09:39 Mr-chen 阅读(1125) 评论(0) 推荐(0) 编辑
摘要: 绘图和可视化 Pandas 《利用Pandas做数据分析2》摘录 matploalib.org 信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分, 例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。 另外,做一个可交互的数据可视化也许是工作的最终目标。 阅读全文
posted @ 2020-02-19 20:59 Mr-chen 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 数据规整:聚合、合并和重塑 《利用pandas进行数据分析-e2》 数据可能分散在许多文件或数据库中,存储的形式也不利于分析。 本章关注可以聚合、合并、重塑数据的方法。 首先,我会介绍pandas的层次化索引,它广泛用于以上操作。 然后,我深入介绍了 一些特殊的数据操作。merge , concat 阅读全文
posted @ 2020-02-18 11:42 Mr-chen 阅读(382) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 44 下一页