NLP分词 FMM,BMM代码复盘

读取数据

import pandas as pd
import numpy as np

filename = 'train.csv'
with open(filename,encoding='utf-8') as f:
    reader = csv.reader(f)
    header_row = None
    highs = []
    for row in reader:
        high = row
        highs.append(high)

Words=[]
Value=[]
max_len=0         #最大词长

for i in range(len(highs)):
    for j in range(len(highs[i])):
        Words.append(highs[i][j])
        Value.append(1)
        if len(Words[-1])>max_len:
            max_len=len(Words[-1])
dic_words=dict(zip(Words,Value))

这里采取的读取数据的方式是蛇书中写的,字典的建立方式也是通过csdn上的列表转字典的方式转过来的。
但仔细复盘一下发现有不少问题。
1.这次实验的数据集截图如下

posted @   TIMON123  阅读(489)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示