摘要:
一、产生原因too many open files是Linux系统中常见的错误,从字面意思上看就是说程序打开的文件数过多,不过这里的files不单是文件的意思,也包括打开的通讯链接(比如socket),正在监听的端口等等,所以有时候也可以叫做句柄(handle),这个错误通常也可以叫做句柄数超出系统 阅读全文
摘要:
https://www.cnblogs.com/Dreamer-1/p/6076440.html 执行计划动作说明 表访问的几种方式:(非全部) TABLE ACCESS FULL(全表扫描) TABLE ACCESS BY ROWID(通过ROWID的表存取) TABLE ACCESS BY IN 阅读全文
摘要:
1.数据清洗 详细看:https://www.cnblogs.com/sss-justdDoIt/p/13633508.html 2.数据归一化 详细看:https://www.cnblogs.com/sss-justdDoIt/p/13633536.html 3.模型选择 详细看:https:// 阅读全文
摘要:
文本分类常用算法比较 本文对文本分类中的常用算法进行了小结,比较它们之间的优劣,为算法的选择提供依据。 一、决策树(Decision Trees) 优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往 阅读全文
摘要:
预处理阶段 预处理阶段主要做两件事情: 一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。 二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是 阅读全文
摘要:
数据归一化和标准化 数据标准化/归一化normalization 转自:数据标准化/归一化normalization 这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与协方差矩阵 ] [矩阵论:向量范数和矩阵范 阅读全文