07 2024 档案
摘要:NLP基础实现 数据预处理 清洗和规范化数据 详解: 去除无关信息: 删除HTML标签、特殊字符、非文本内容等,确保文本的纯净性(如(掌声)等拟声词)。 统一格式: 转换所有文本为小写,确保一致性;标准化日期、数字等格式。 分句和分段 将长文本分割成句子或段落,便于处理和训练。 代码示例: '''分
阅读全文
摘要:metavision预处理函数 三种预处理函数 histo 双通道 参数 xypt: event结构化数组(一般会分段读取,分段为delta_t) output_array: 输出保存数组(reset参数可以直接重置归0) 一般output_array为(tbins, 2, height, widt
阅读全文
摘要:datawhale 机器学习分子AI数据挖掘比赛笔记 task3 未完成版 ''' 导入库 catboost 处理分类和回归任务的机器学习库 sklearn 传统机器学习库 rdkit warnings 处理忽略错误 ''' import numpy as np import pandas as p
阅读全文