随笔分类 -  数据分析

摘要:from datetime import datetime, date, timedelta import matplotlib.pyplot as plt import tushare as ts plt.rcParams['font.sans-serif'] = ['SimHei'] #显示中文 阅读全文
posted @ 2019-11-21 22:07 -零 阅读(7893) 评论(0) 推荐(0) 编辑
摘要:matplotlib animation的官方文档: http://matplotlib.org/api/animation_api.html 接下来完成一个实时获取cpu数值,并绘图的功能。 1.动画的骨架 初始化空数据,初始化图形大小和背景颜色,插入子图(三个数字分别表示几行几列第几个位置),初 阅读全文
posted @ 2019-11-20 00:19 -零 阅读(3348) 评论(1) 推荐(1) 编辑
摘要:1. 折线图 绘制折线图,如果你数据不是很多的话,画出来的图将是曲折状态,但一旦你的数据集大起来,比如下面我们的示例,有100个点,所以我们用肉眼看到的将是一条平滑的曲线。 这里我绘制三条线,只要执行三次 plt.plot 就可以了。 2. 散点图 其实散点图和折线图是一样的原理,将散点图里的点用线 阅读全文
posted @ 2019-11-19 15:54 -零 阅读(887) 评论(0) 推荐(0) 编辑
摘要:import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.family'] = ['sans-serif'] plt.rcParams['font.sans-serif'] = ['SimHei'] def linea 阅读全文
posted @ 2019-11-18 23:54 -零 阅读(3476) 评论(0) 推荐(0) 编辑
摘要:参考:python文本相似度计算 原始语料格式:一个文件,一篇文章。 原始语料格式如下示例: 阅读全文
posted @ 2019-08-24 18:15 -零 阅读(9114) 评论(0) 推荐(0) 编辑
摘要:停用词表 中文停用词表(1208个 北邮人论坛上的两个停用词表 阅读全文
posted @ 2019-08-23 22:08 -零 阅读(968) 评论(0) 推荐(0) 编辑
摘要:简单示例 wordcloud.WordCloud类 在不同形状黑白图像上显示 阅读全文
posted @ 2019-08-22 18:52 -零 阅读(1764) 评论(0) 推荐(0) 编辑
摘要:jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提 阅读全文
posted @ 2019-08-22 16:31 -零 阅读(510) 评论(0) 推荐(0) 编辑
摘要:一、前言 随着互联网的发展,数据的海量增长使得文本信息的分析与处理需求日益突显,而文本处理工作中关键词提取是基础工作之一。 TF-IDF与TextRank是经典的关键词提取算法,需要掌握。 二、TF-IDF 2.1、TF-IDF通用介绍 TF-IDF,全称是 Term Frequency - inv 阅读全文
posted @ 2019-08-22 13:58 -零 阅读(3033) 评论(0) 推荐(0) 编辑
摘要:作者:doze_worm来源:https://www.douban.com/note/620615113/ gensim 起步:本节介绍理解和使用 gensim 所必须的基础概念和术语,并提供一个简单用例。 核心概念和简单样例:从高层级来看,gensim 是一个通过衡量词组(或更高级结构,如整句或文 阅读全文
posted @ 2019-08-05 16:02 -零 阅读(586) 评论(0) 推荐(0) 编辑
摘要:数据的标准化(normalization)和归一化 数据的标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 目前数据标准化 阅读全文
posted @ 2019-07-23 22:19 -零 阅读(27575) 评论(0) 推荐(0) 编辑
摘要:python可视化pyecharts 简单介绍 pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。 echar 阅读全文
posted @ 2019-04-02 23:44 -零 阅读(1643) 评论(0) 推荐(0) 编辑
摘要:数据采集工具:八爪鱼 目录 一.八爪鱼介绍 二.安装八爪鱼 安装提示: 三.采集原理 四.快速入门 选择采集模式 简易模式下内置了国内一些主流网站的采集规则。如果要采集的网站和字段在简易模式的模板中,可直接调用。 注意:可自定义修改参数,以采集所需数据。 建议: 如果不能确定需要多少页数据,建议打开 阅读全文
posted @ 2019-03-29 23:06 -零 阅读(5327) 评论(0) 推荐(0) 编辑
摘要:pandas学习(数据分组与分组运算、离散化处理、数据合并) 目录 数据合并 数据分组与分组运算 程序示例: 运行结果: 离散化处理 程序示例: 运行结果: 数据合并 append(上下拼接) merge (左右合并) concat(): 批量数据合并(两个数据及以上) 上下合并 阅读全文
posted @ 2019-01-19 15:45 -零 阅读(1468) 评论(0) 推荐(1) 编辑
摘要:pandas学习(创建多层索引、数据重塑与轴向旋转) 目录 创建多层索引 隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组,Series也可以创建多层索引。 DataFrame 显示构造pd.MultiIndex 使用数组构造 使用tuple构造 阅读全文
posted @ 2019-01-18 13:30 -零 阅读(1400) 评论(0) 推荐(0) 编辑
摘要:pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 读取数据 pandas可以从外部获取数据,构建数据对象,例如xlsx后缀的ececl文件,csv文件,txt文本等 下面以txt文件举例: 先创建txt文本 读取txt文本数据 阅读全文
posted @ 2019-01-15 23:59 -零 阅读(3044) 评论(0) 推荐(0) 编辑
摘要:pandas学习(一) Pandas基本数据结构 Series类型数据 Dataframe类型 基本操作 Pandas基本数据结构 Series类型数据 初始化series 第一种方法通过numpy生成。 注意:默认没有指定下标,所以从零开始。 第二种方法,通过传入列表。 增加行标签 Datafra 阅读全文
posted @ 2019-01-15 13:52 -零 阅读(2403) 评论(0) 推荐(0) 编辑
摘要:NumPy学习(索引和切片,合并,分割,copy与deep copy) 目录 索引和切片 通过索引和切片可以访问以及修改数组元素的值 一维数组 程序示例 运行结果 花式索引 程序示例 运行结果 多维 数组 程序示例 运行结果 运行结果 合并 一维数组 程序示例 运行结果 分割 程序示例 运行结果 c 阅读全文
posted @ 2019-01-13 17:18 -零 阅读(1245) 评论(0) 推荐(0) 编辑
摘要:NumPy学习(一) NumPy数组创建 NumPy数组属性 NumPy数学算术与算数运算 NumPy数组创建 它从任何暴露数组接口的对象,或从返回数组的任何方法创建一个ndarray。 dtype用来设置元素的数据类型 最简单的创建方式 1. 创建特殊数组 返回特定大小,以 0 填充的新数组。 n 阅读全文
posted @ 2019-01-12 23:34 -零 阅读(957) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示