12 2021 档案
摘要:将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。 from sklearn.preprocessing import OneHo
阅读全文
摘要:SELECT tmp.employee_name, tmp.stat_month, count( DISTINCT tmp.signature ) signature_cnt, count( DISTINCT tmp.signature_api ) signature_api_cnt, count(
阅读全文
摘要:课程大纲 获取语料 预处理 特征工程 模型介绍 评测标准 项目介绍 01 获取语料 数据集 语料是NLP的生命之源 所有的NLP问题都是从语料中学到数据分布的规律 语料的分类 单语料 平行语料 复杂结构 类型 说明 例子 单语料 只有句子和句子集合 整理好的英文文档,中文古诗数据集 平行语料 有句子
阅读全文
摘要:PySpark Cookbook Tomasz Drabas, Denny Lee Version: 0.1 Date: 1/15/2018 import findspark findspark.init() import pyspark from pyspark import SparkConte
阅读全文
摘要:第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_name; 查看分区信息:show partitions table_name; 加载本地文件:load data local inpath '/xxx/test.txt' o
阅读全文