摘要:
1. 聚合:最小值、最大值和其他值 当面对大量数据时,第一个步骤通常是计算相关数据的概括统计值,最常用的概括统计值可能是均值和标准差,这两个值都能让你分别概括数据集中的“经典”值,但是其他一些形式的聚合也是很有用的(如求和,乘积,中位数,最大值和最小值,分位数等) numpy有非常快速的内置聚合函数 阅读全文
摘要:
python中的固定类型数组 python提供的内置的数组array模块可以用于创建同一类型的密集数组 这里的 'i' 是一个数据类型码,表示数据为整型 更实用的是Numpy包中的ndarray对象 python的数组对象提供了数组型数据的有效存储,而Numpy为该数据加上了高效的操作 从Pytho 阅读全文
摘要:
Numpy数组的计算:通用函数 Numpy数组的计算有时非常快,有时也非常慢,使Numpy变快的关键是利用向量化的操作,通常在Numpy的通用函数中实现,提高数组元素的重复计算的效率 缓慢的循环 Pythom的默认实现(被称为Cpython)处理某种操作时非常慢,一部分原因是该语言的动态性和解释性- 阅读全文
摘要:
文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。在自然语言处理研究领域,文本向量化是文本表示的一种重要方式。 顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论中文还是英文,词语都是表达文本处理的最基本单元。 当前阶段,对文本向量化都是通过 阅读全文
摘要:
当前文本向量化主流的方式是word2vec词向量技术,从基于统计的方法,到基于神经网络的方法,掌握word2vec词向量技术是学习文本向量化的最好的方式 下面是Tomas MIkolov的三篇有关word embedding的文章: 1、Efficient Estimation of Word Re 阅读全文
摘要:
wordcloud 安装 pip安装 conda安装 快速生成词云 效果: 利用背景图片生成词云,设置停用词词集 效果: 自定义字体颜色 会报错 NotImplementedError: Gray-scale images TODO, 方法是换过一张图片 参照:https://blog.csdn.n 阅读全文
摘要:
介绍 LTP(Language Technology Platform)为中文语言技术平台,是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核 阅读全文