NLP分词 FMM,BMM代码复盘
读取数据
import pandas as pd
import numpy as np
filename = 'train.csv'
with open(filename,encoding='utf-8') as f:
reader = csv.reader(f)
header_row = None
highs = []
for row in reader:
high = row
highs.append(high)
Words=[]
Value=[]
max_len=0 #最大词长
for i in range(len(highs)):
for j in range(len(highs[i])):
Words.append(highs[i][j])
Value.append(1)
if len(Words[-1])>max_len:
max_len=len(Words[-1])
dic_words=dict(zip(Words,Value))
这里采取的读取数据的方式是蛇书中写的,字典的建立方式也是通过csdn上的列表转字典的方式转过来的。
但仔细复盘一下发现有不少问题。
1.这次实验的数据集截图如下
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix