摘要: Python 文件路径处理问题 由于许多不同的原因,使用文件和与文件系统交互很重要。 最简单的情况可能只涉及读取或写入文件,但有时候会有更复杂的任务。 也许你需要列出给定类型的目录中的所有文件,查找给定文件的父目录,或者创建一个尚不存在的唯一文件名。 一般情况,Python 使用常规文本字符串表示文 阅读全文
posted @ 2019-08-24 21:21 木屐呀 阅读(2348) 评论(0) 推荐(0) 编辑
摘要: 比较、掩码和布尔逻辑 当想基于某些准则来抽取,修改,计数或对一个数组中的值进行其他操作时,掩码就派上用场了 例如,统计数组中有多少值大于某个给定值,或者删除所有超过某些门限值的异常点 在numpy中,布尔掩码通常是完成此类任务的最高效方式 比较操作 Numpy实现了如<小于和>大于的逐元素比较的通用 阅读全文
posted @ 2019-08-24 21:20 木屐呀 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 1. 聚合:最小值、最大值和其他值 当面对大量数据时,第一个步骤通常是计算相关数据的概括统计值,最常用的概括统计值可能是均值和标准差,这两个值都能让你分别概括数据集中的“经典”值,但是其他一些形式的聚合也是很有用的(如求和,乘积,中位数,最大值和最小值,分位数等) numpy有非常快速的内置聚合函数 阅读全文
posted @ 2019-08-24 21:19 木屐呀 阅读(310) 评论(0) 推荐(0) 编辑
摘要: python中的固定类型数组 python提供的内置的数组array模块可以用于创建同一类型的密集数组 这里的 'i' 是一个数据类型码,表示数据为整型 更实用的是Numpy包中的ndarray对象 python的数组对象提供了数组型数据的有效存储,而Numpy为该数据加上了高效的操作 从Pytho 阅读全文
posted @ 2019-08-24 21:18 木屐呀 阅读(301) 评论(0) 推荐(0) 编辑
摘要: Numpy数组的计算:通用函数 Numpy数组的计算有时非常快,有时也非常慢,使Numpy变快的关键是利用向量化的操作,通常在Numpy的通用函数中实现,提高数组元素的重复计算的效率 缓慢的循环 Pythom的默认实现(被称为Cpython)处理某种操作时非常慢,一部分原因是该语言的动态性和解释性- 阅读全文
posted @ 2019-08-24 21:18 木屐呀 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。在自然语言处理研究领域,文本向量化是文本表示的一种重要方式。 顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论中文还是英文,词语都是表达文本处理的最基本单元。 当前阶段,对文本向量化都是通过 阅读全文
posted @ 2019-08-24 21:16 木屐呀 阅读(1206) 评论(0) 推荐(0) 编辑
摘要: 当前文本向量化主流的方式是word2vec词向量技术,从基于统计的方法,到基于神经网络的方法,掌握word2vec词向量技术是学习文本向量化的最好的方式 下面是Tomas MIkolov的三篇有关word embedding的文章: 1、Efficient Estimation of Word Re 阅读全文
posted @ 2019-08-24 21:16 木屐呀 阅读(1945) 评论(0) 推荐(0) 编辑
摘要: wordcloud 安装 pip安装 conda安装 快速生成词云 效果: 利用背景图片生成词云,设置停用词词集 效果: 自定义字体颜色 会报错 NotImplementedError: Gray-scale images TODO, 方法是换过一张图片 参照:https://blog.csdn.n 阅读全文
posted @ 2019-08-24 21:15 木屐呀 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 介绍 LTP(Language Technology Platform)为中文语言技术平台,是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核 阅读全文
posted @ 2019-08-24 14:04 木屐呀 阅读(1006) 评论(0) 推荐(0) 编辑
//增加一段JS脚本,为目录生成使用