摘要:
Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。 安装 一、柱形图(条形图) 柱形图简明、醒目,是一种常用的统计图形。以下生成的图都可以点击 html 文件 阅读全文
摘要:
Python上著名的⾃然语⾔处理库 ⾃带语料库,词性分类库 ⾃带分类,分词,等等功能 强⼤的社区⽀持 还有N多的简单版wrapper 安装语料库 # 方式一 import nltk nltk.download() showing info https://raw.githubusercontent. 阅读全文
摘要:
余弦计算相似度度量 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映 阅读全文
摘要:
一、series 二、read_file 三、dataframe 示例一 示例二 四、电影数据案例 电影案例二 五。常用统计方法 六、统计分类情况 七、数据分组与聚合 八、分组聚合 分组聚合二 九、book_data 十、911data 示例二 十一、时间序列 实例一 实例二 实例三:pm2.5 阅读全文
摘要:
使用无界面浏览器 Selenium+Headless Firefox Selenium+Headless Firefox和Selenium+Firefox,区别就是实例option的时候设置-headless参数。 前提条件: - 本地安装Firefox浏览器 - 本地需要geckodriver驱动 阅读全文
摘要:
NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。 一,tofile()和fromfile() tofile()将数组中的数据以二进制格式写进文件 tofile()输出的数据不保存数组形 阅读全文
摘要:
numpy模块中的矩阵对象为numpy.matrix,包括矩阵数据的处理,矩阵的计算,以及基本的统计功能,转置,可逆性等等,包括对复数的处理,均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵,其中data为ndarray对象或者字符形式; 阅读全文
摘要:
官方文档 Enthought offical tutorial: numpy.genfromtxt A very common file format for data file is comma-separated values (CSV), or related formats such as 阅读全文
摘要:
简介 有时候数据集中存在缺失、异常或者无效的数值,我们可以标记该元素为被屏蔽(无效)状态。 现在可以创造一个掩码数组(标记第四个元素为无效状态)。 接下来可以计算平均值而不用考虑无效数据。 访问掩码 可通过其mask属性访问掩码数组的掩码。我们必须记住,掩码中的True条目表示无效数据。 只访问有效 阅读全文
摘要:
简介 之前我们操作Numpy的数组时,都是通过索引来操作的。针对二维数组,使用索引可以完成对行、列的操作。但是这是非常不直观的。可以把二维数组想象成一个excel表格,如果表格没有列名,操作起来会非常麻烦,针对这种情况,Numpy提供了结构化数组用来操作每列数据。 之前我们操作Numpy的数组时,都 阅读全文