Fork me on GitHub

随笔分类 -  数据分析

数据分析
摘要:superset在centos7下快速安装 superset 是一款开源的BI工具。快速、轻量、直观,并加载了选项,使所有技能集的用户都可以轻松探索和可视化他们的数据,从简单的折线图到高度详细的地理空间图表文字源于官网。 安装 首先安装Anaconda3 Anaconda3下载 执行shell命令, 阅读全文
posted @ 2021-07-11 13:44 是阿凯啊 阅读(293) 评论(0) 推荐(0) 编辑
摘要:Matplotlib可视化 matplotlib及环境配置 数据图的组成结构,与matplotlib对应的名称 常见的数据绘图类型,与绘制方法 matplotlib安装配置 linux pip install numpy pip install scipy pip install matplotli 阅读全文
posted @ 2020-01-01 20:40 是阿凯啊 阅读(398) 评论(0) 推荐(0) 编辑
摘要:pandas多种格式数据加载 在我们实际场景中,我们会在不同地方遇到各种不同数据格式(比如大家熟悉的CSV格式,txt格式,HTML格式,XML格式等等),我们如何用python和这些数据打交道呢? 1.不同格式文本的数据读取 1.1csv读取: 正常读取 分隔符读取 不要headers读取(第一行 阅读全文
posted @ 2020-01-01 19:32 是阿凯啊 阅读(552) 评论(0) 推荐(0) 编辑
摘要:SimHash原理 1.SimHash背景 SimHash算法来自于 GoogleMoses Charikar发表的一篇论文“detecting near duplicates for web crawling” ,其主要思想是降维, 将高维的特征向量映射成低维的特征向量,通过两个向量的Hammin 阅读全文
posted @ 2019-12-14 13:41 是阿凯啊 阅读(3296) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示