摘要:
pkuseg简单易用,支持细分领域分词,有效提升了分词准确度。 目录 主要亮点 编译和安装 各类分词工具包的性能对比 使用方式 相关论文 作者 常见问题及解答 主要亮点 pkuseg具有如下几个特点: 编译和安装 目前仅支持python3 新版本发布:2019-1-23 修改了词典处理方法,扩充了词 阅读全文
摘要:
一、统计数据频率 1. values_counts 参数详解 参数示例讲解 In [21]: data=pd.DataFrame(pd.Series([1,2,3,4,5,6,11,1,1,1,1,2,2,2,2,3]).values.reshape(4,4),columns=['a','b','c 阅读全文
摘要:
目录 1. 折线图 2. 柱状图 3. 直方图 4. 箱线图 5. 区域图 6. 散点图 7. 饼图六边形容器图 数据分析的结果不仅仅只是你来看的,更多的时候是给需求方或者老板来看的,为了更直观地看出结果, 数据可视化是必不可少的一个环节。这里带大家来看下一些常用的图形的画法。 数据准备 Panda 阅读全文
摘要:
目录 1. 拼接 1.1 append 1.2 concat 2. 关联 2.1 merge 2.2 join 数据准备 # 导入相关库 import numpy as np import pandas as pd """ 拼接 有两个DataFrame,都存储了用户的一些信息,现在要拼接起来,组成 阅读全文
摘要:
目录 1. 将对象分割成组 1.1 关闭排序 1.2 选择列 1.3 遍历分组 1.4 选择一个组 2. 聚合 2.1 一次应用多个聚合操作 2.2 对DataFrame列应用不同的聚合操作 3. transform 操作 4. apply 操作 数据准备 1.将对象分割成组 在进行分组统计前,首先 阅读全文
摘要:
内容目录 1. 字典式 get 访问 2. 属性访问 3. 切片操作 4. 通过数字筛选行和列 5. 通过名称筛选行和列 6. 布尔索引 7. isin 筛选 8. 通过Callable筛选 数据准备 1. 字典式 get 访问 2. 属性访问 3.切片 切片对于 Series 来说,通过切片可以完 阅读全文
摘要:
内容目录 1. 统计函数 2. 窗口函数 3. 加深加强 数据准备 1.统计函数 最常见的计算工具莫过于一些统计函数了。 这里我们首先构建一个包含了用户年龄与收入的 DataFrame。我们可以通过 cov 函数来求出年龄与收入之间的协方差,计算的时候会丢弃缺失值。除了协方差之外,我们还可以通过 c 阅读全文
摘要:
内容目录 1. 基础概述 2. 转换时间戳 3. 生成时间戳范围 4. DatetimeIndex 5. DateOffset对象 6. 与时间序列相关的方法 6.1 移动 6.2 频率转换 6.3 重采样 在处理时间序列的的过程中,我们经常会去做以下一些任务: 使用 Pandas 可以轻松完成以上 阅读全文
摘要:
内容目录 1. 创建对象 2. 常用操作 3. 内存使用量的陷阱 一、创建对象 1.基本概念:分类数据直白来说就是取值为有限的,或者说是固定数量的可能值。例如:性别、血型。 2.创建分类数据:这里以血型为例,假定每个用户有以下的血型,我们如何创建一个关于血型的分类对象呢? 方法一:明确指定 dtyp 阅读全文
摘要:
内容目录 1. 为什么要用str属性 2. 替换和分割 3. 提取子串 3.1 提取第一个匹配的子串 3.2 匹配所有子串 3.3 测试是否包含子串 3.4 生成哑变量 3.5 方法摘要 3.1 提取第一个匹配的子串 3.2 匹配所有子串 3.3 测试是否包含子串 3.4 生成哑变量 3.5 方法摘 阅读全文