The future of you, waiting for you in the future.

Geoffrey

Long, long the pathway to Cold Hill;
Drear, drear the waterside so chill.

返回顶部

12 2021 档案

摘要:将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。 from sklearn.preprocessing import OneHo 阅读全文
posted @ 2021-12-22 22:57 Geoffreygau 阅读(1350) 评论(0) 推荐(0) 编辑
摘要:SELECT tmp.employee_name, tmp.stat_month, count( DISTINCT tmp.signature ) signature_cnt, count( DISTINCT tmp.signature_api ) signature_api_cnt, count( 阅读全文
posted @ 2021-12-22 19:19 Geoffreygau 阅读(49) 评论(0) 推荐(0) 编辑
摘要:课程大纲 获取语料 预处理 特征工程 模型介绍 评测标准 项目介绍 01 获取语料 数据集 语料是NLP的生命之源 所有的NLP问题都是从语料中学到数据分布的规律 语料的分类 单语料 平行语料 复杂结构 类型 说明 例子 单语料 只有句子和句子集合 整理好的英文文档,中文古诗数据集 平行语料 有句子 阅读全文
posted @ 2021-12-18 23:05 Geoffreygau 阅读(699) 评论(0) 推荐(0) 编辑
摘要:PySpark Cookbook Tomasz Drabas, Denny Lee Version: 0.1 Date: 1/15/2018 import findspark findspark.init() import pyspark from pyspark import SparkConte 阅读全文
posted @ 2021-12-13 23:47 Geoffreygau 阅读(73) 评论(0) 推荐(0) 编辑
摘要:第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_name; 查看分区信息:show partitions table_name; 加载本地文件:load data local inpath '/xxx/test.txt' o 阅读全文
posted @ 2021-12-10 18:21 Geoffreygau 阅读(217) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示