python自然语言处理——1.2 近观python:将文本当作词链表
微信公众号:数据运营人
本系列为博主的读书学习笔记,如需转载请注明出处。
第一章 语言处理与python
1.2 近观python:将文本当作词链表链表索引列表变量字符串
1.2 近观python:将文本当作词链表
链表
# 导包
from nltk.book import *
print(sent1)
print(sent2)
print(sent3)
print(sent1+sent3) # 列表相加
print(sent1.append('some')) # 向列表中追加元素
print(sent1)
返回结果:
索引列表
print(text4[173]) # 返回text4中173位置的元素
print(text4.index('awaken')) # 返回‘awaken’元素的位置
print(text5[16715:16735]) # 返回text5中16715到16735位置的元素(左闭右开)
print(text6[1600:1625])
# 定义列表
sent = ['word1','word2','word3','word4','word5']
print(sent[0])
print(sent[4])
sent[0] = 'first' # 将sent[0]为位置的元素修改为‘first’
sent[4] = 'last'
print(len(sent))
返回结果:
变量
my_sent = ['Bravely','blod','Sir','Robin',',','rode','from','forth']
noun_phrase = my_sent[1:4]
print(noun_phrase)
words = sorted(noun_phrase) # 对列表进行排序
print(words)
vocab = set(text1) # 将text1转换为集合,换言之对text1进行去重
vocab_size = len(vacab) # 计算vacab的长度
print(vocab)
返回结果:
字符串
name = 'monty' # 定义字符串
print(name[0])
print(name[:4])
print(name*2)
print(name+'!')
print(' '.join(['monty','python'])) # 字符串拼接
print('monty python'.split()) # 字符串拆分
返回结果:
列表与字符串最大的区别:列表是可变的,字符串是不可变的