摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 点击如下链接查看: python数据分析——(用户匿名数据、电影、婴儿姓名) 阅读全文
posted @ 2019-02-24 16:17 ly803744 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 当提起数据处理,一般情况下我们都可以用python中的pandas完成,但是当我们发现一些不规则的excel数据,所谓不规则如单元格存在合并等情况,像公司的财务报表数据等,我们可以利用python中的xlrd和xlwt模块对该类 阅读全文
posted @ 2019-02-24 16:11 ly803744 阅读(1842) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.7 用正则表达式为文本分词正则表达式的基础语法分词的简单方法 3.7 用正则表达式为文本分词 正则表达式的基础语法 正则表达式作为处理字符串的强大工具,拥有独特的语法和独特的处理引擎。 分词的简单方法 阅读全文
posted @ 2019-02-24 15:36 ly803744 阅读(1313) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.6 规范化文本词干提取器词形归并 3.6 规范化文本 词干提取器 所谓的词干提取器就是去除词缀得到词根的过程——得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干 阅读全文
posted @ 2019-02-24 15:35 ly803744 阅读(713) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.5 正则表达式的有益应用提取字符块在字符块上做更多事情查找词干搜索已分词文本 3.5 正则表达式的有益应用 提取字符块 import reimport nltkword = 阅读全文
posted @ 2019-02-24 15:34 ly803744 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.3 使用Unicode进行文本处理字符编码ASCII码非ASCII码UnicodeUnicode的问题UTF 8Unicode与UTF 8之间的转换Little endian 和Big endian实例 阅读全文
posted @ 2019-02-24 15:32 ly803744 阅读(685) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.2 字符串:最底层的文本处理 a = 'Hello'b = 'Python's = ' he llo ' 1.字 阅读全文
posted @ 2019-02-24 15:30 ly803744 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.1 从网络和硬盘访问文本电子书处理的HTML处理RSS订阅读取本地文件 3.1 从网络和硬盘访问文本 电子书 NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可 阅读全文
posted @ 2019-02-24 15:29 ly803744 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第二章 获取文本预料和词汇资源 2.5 WordNet意义和同义词WordNet的层次结构更多的词汇关系语义相似度 2.5 WordNet 意义和同义词 from nltk.corpus import&nbs 阅读全文
posted @ 2019-02-24 15:27 ly803744 阅读(287) 评论(0) 推荐(0) 编辑