2018年6月1日

摘要: jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。这才是主要需要处理的是基于中文的。jieba可以实现粗细两种粒度的分词处理。一般选择的是粗粒 阅读全文
posted @ 2018-06-01 11:10 Josie_chen 阅读(970) 评论(0) 推荐(0) 编辑
摘要: Python正则表达式 by 寒小阳(hanxiaoyang.ml@gmail.com) 正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的 阅读全文
posted @ 2018-06-01 11:09 Josie_chen 阅读(482) 评论(0) 推荐(0) 编辑
摘要: Jupyter Notebook string_operation 字符串操作 我们一起回归一下python字符串的相关操作,这是非常基础的知识,但却是使用频度非常高的一些功能。 去空格及特殊符号 In [3]: s = ' hello, world!' print s.strip() print 阅读全文
posted @ 2018-06-01 11:07 Josie_chen 阅读(196) 评论(0) 推荐(0) 编辑

导航