随笔分类 - 数据分析
数据分析
摘要:superset在centos7下快速安装 superset 是一款开源的BI工具。快速、轻量、直观,并加载了选项,使所有技能集的用户都可以轻松探索和可视化他们的数据,从简单的折线图到高度详细的地理空间图表文字源于官网。 安装 首先安装Anaconda3 Anaconda3下载 执行shell命令,
阅读全文
摘要:Matplotlib可视化 matplotlib及环境配置 数据图的组成结构,与matplotlib对应的名称 常见的数据绘图类型,与绘制方法 matplotlib安装配置 linux pip install numpy pip install scipy pip install matplotli
阅读全文
摘要:pandas多种格式数据加载 在我们实际场景中,我们会在不同地方遇到各种不同数据格式(比如大家熟悉的CSV格式,txt格式,HTML格式,XML格式等等),我们如何用python和这些数据打交道呢? 1.不同格式文本的数据读取 1.1csv读取: 正常读取 分隔符读取 不要headers读取(第一行
阅读全文
摘要:SimHash原理 1.SimHash背景 SimHash算法来自于 GoogleMoses Charikar发表的一篇论文“detecting near duplicates for web crawling” ,其主要思想是降维, 将高维的特征向量映射成低维的特征向量,通过两个向量的Hammin
阅读全文