导航

2022年6月21日

摘要: 1,文本预处理 在nlp工程中,文本预处理的流程通常包含以下步骤:获取原始文本、分词、文本清洗、标准化、特征提取、建模等。 !文本获取 获取语料库,一个方法就是去网络上寻找一些第三方提供的语料库,出名的开放语料库比如wiki。但事实上,很多情况中所研究或开发的系统往往是应用于某种特定的领域,这些开放 阅读全文

posted @ 2022-06-21 13:05 rossxp 阅读(238) 评论(0) 推荐(0) 编辑

摘要: 1,注意力机制 想象一下,假如你面前有五个物品:一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书。所有纸制品都是黑白印刷的,但咖啡杯是红色的。换句话说,这个咖啡杯在这种视觉环境中是突出和显眼的,不由自主地引起人们的注意。所以人们会把视力最敏锐的地方放到咖啡上。 喝咖啡后,你会变得兴奋并想读书。所 阅读全文

posted @ 2022-06-21 13:01 rossxp 阅读(681) 评论(0) 推荐(0) 编辑

摘要: 1,交叉相关,卷积 假设我们现在要做猫狗分类,如果还是用单纯的MLP(全连接)做的话,由于图片有很多的像素点,那么我们的输入就会有很多,对应就要有更多的参数。想要训练这个模型将不可实现,因为需要有大量的GPU、分布式优化训练的经验和超乎常人的耐心。但是其实不用,图像中本就拥有丰富的结构,而这些结构可 阅读全文

posted @ 2022-06-21 12:57 rossxp 阅读(537) 评论(0) 推荐(0) 编辑

摘要: 1, 线性模型 线性假设是指目标(房屋价格)可以表示为特征(面积和房龄)的加权和,如下面的式子: price=warea⋅area+wage⋅age+b. warea和wage称为权重(weight),权重决定了每个特征对我们预测值的影响。b称为偏置(bias)、偏移量(offset)或截距(int 阅读全文

posted @ 2022-06-21 12:47 rossxp 阅读(173) 评论(0) 推荐(0) 编辑

摘要: 1, 从一个例子理解维数: 0维,就是一个像素点,一个标量,比如0.3 1维,一个特征向量 2维,一个矩阵,比如一张灰度图片的像素点分布 3维,一张三通道的彩色图片 4维,一个三通道图片批量,许多张图片 5维,一个视频批量,比三维多了时间序列 2, 范数 L-0范数:用来统计向量中非零元素的个数。L 阅读全文

posted @ 2022-06-21 12:37 rossxp 阅读(15) 评论(0) 推荐(0) 编辑

摘要: 1,训练过程通常包含如下步骤: 从一个随机初始化参数的模型开始,这个模型基本毫不“智能”。 获取一些数据样本(例如,音频片段以及对应的是否{是,否}标签)。 调整参数,使模型在这些样本中表现得更好。 重复第2步和第3步,直到模型在任务中的表现令你满意。 2,无论我们遇到什么类型的机器学习问题,基本上 阅读全文

posted @ 2022-06-21 12:35 rossxp 阅读(61) 评论(0) 推荐(0) 编辑

摘要: 1,运行hive时,出现包错误 原因:spark版本升级到2.x以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。要做的只是将hive中的启动文件中的sparkAssemblyPath这一行更改为 阅读全文

posted @ 2022-06-21 12:30 rossxp 阅读(388) 评论(0) 推荐(0) 编辑