NLP分词 FMM,BMM代码复盘

读取数据

import pandas as pd
import numpy as np

filename = 'train.csv'
with open(filename,encoding='utf-8') as f:
    reader = csv.reader(f)
    header_row = None
    highs = []
    for row in reader:
        high = row
        highs.append(high)

Words=[]
Value=[]
max_len=0         #最大词长

for i in range(len(highs)):
    for j in range(len(highs[i])):
        Words.append(highs[i][j])
        Value.append(1)
        if len(Words[-1])>max_len:
            max_len=len(Words[-1])
dic_words=dict(zip(Words,Value))

这里采取的读取数据的方式是蛇书中写的,字典的建立方式也是通过csdn上的列表转字典的方式转过来的。
但仔细复盘一下发现有不少问题。
1.这次实验的数据集截图如下

posted @ 2022-04-06 01:27  TIMON123  阅读(485)  评论(0编辑  收藏  举报