摘要:
4、停用词 删除没有信息量的单词还有另一种方法,就是舍弃那些出现次数太多以至于没有信息量的单词。有两种主要方法:使用特定语言的停用词(stopword)列表,或者舍弃那些出现过于频繁的单词。 scikit-learn 的 feature_extraction.text 模块中提供了英语停用词的内置列 阅读全文
摘要:
多层索引是指在行或者列轴上有两个及以上级别的索引,一般表示一个数据的几个分项。 1、创建多层索引 1.1通过分组产生多层索引 1.2由序列创建 1.3由元组创建 1.4可迭代对象的笛卡尔积 1.5将DataFrame转为多层索引对象 2、多层索引操作 多层索引和单层索引一样,但在它也有一些特定的操作 阅读全文