摘要:
一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 阅读全文
摘要:
一:简介 正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。 阅读全文