摘要:
""" Code to accompany the chapter "Natural Language Corpus Data" from the book "Beautiful Data" (Segaran and Hammerbacher, 2009) http://oreilly.com/catalog/978059615... 阅读全文
摘要:
Python把在程序中用到的任何东西都称为对象 。就每一个数、字符串甚至函数都是对象这一点来说,Python是极其完全地面向对象的。 #! learn morei = 5print ii = i+1 s = ''' this is a multi-line string.this is the second line.''' print s g = 'chine\chekc' print g ... 阅读全文
摘要:
《25 To Life 》 too late for the other side 现在回头为时已晚 caught in a change 由于一次变故 25 to life 25岁时,即决定了一生 too late for the other side 现在回头为时已晚 caught in a change 由于一次变故 25 to life 25岁时,即决定了一生 yeah too late... 阅读全文
摘要:
分词相关a) Tokenization i. 目标(Goal):将文本切分成单词序列(divide text into a sequence of words) ii. 单词指的是一串连续的字母数字并且其两端有空格;可能包含连字符和撇号但是没有其它标点符号 b) 什么是词(What’s a word)?i. English: 1. “Wash. vs wash&rdquo... 阅读全文