NLP分词 FMM,BMM代码复盘
读取数据
import pandas as pd
import numpy as np
filename = 'train.csv'
with open(filename,encoding='utf-8') as f:
reader = csv.reader(f)
header_row = None
highs = []
for row in reader:
high = row
highs.append(high)
Words=[]
Value=[]
max_len=0 #最大词长
for i in range(len(highs)):
for j in range(len(highs[i])):
Words.append(highs[i][j])
Value.append(1)
if len(Words[-1])>max_len:
max_len=len(Words[-1])
dic_words=dict(zip(Words,Value))
这里采取的读取数据的方式是蛇书中写的,字典的建立方式也是通过csdn上的列表转字典的方式转过来的。
但仔细复盘一下发现有不少问题。
1.这次实验的数据集截图如下