nxf_rabbit75 - 博客园

2019年12月11日

摘要： Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源一、通过JDBC连接数据库 1.准备工作 ubuntu安装mysql教程在Linux中启动MySQL数据库：输入下面SQL语句完成数据库和表的创建： 2.读取mysql数据库中的数据下载M 阅读全文

posted @ 2019-12-11 14:20 nxf_rabbit75 阅读(1271) 评论(0) 推荐(0) 编辑

2019年12月10日

6.2 DataFrame

摘要：一、DataFrame概述在Spark SQL中，DataFrame就是它的数据抽象，对DataFrame进行转换操作。 DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能Spark能够轻松实现从MySQL到Da 阅读全文

posted @ 2019-12-10 21:27 nxf_rabbit75 阅读(384) 评论(0) 推荐(0) 编辑

6.1 Spark SQL

摘要：一、从shark到Spark SQL Hive能够把SQL程序转换成map-reduce程序可以把Hadoop中的Hive看作是一个接口，主要起到了转换的功能，并没有实际存储数据。 Shark即Hive on Spark，为了实现与Hive兼容，Shark在HiveQL方面重用了Hive中Hive 阅读全文

posted @ 2019-12-10 20:39 nxf_rabbit75 阅读(332) 评论(0) 推荐(0) 编辑

2019年11月27日

Bert实战---情感分类

摘要： 1.情感分析语料预处理使用酒店评论语料，正面评论和负面评论各5000条，用BERT参数这么大的模型，训练会产生严重过拟合,，泛化能力差的情况, 这也是我们下面需要解决的问题; 2.sigmoid二分类回顾在BERT的训练中Next Sentence Prediction中, 我们取出$[cls 阅读全文

posted @ 2019-11-27 21:48 nxf_rabbit75 阅读(2709) 评论(0) 推荐(0) 编辑

Transformer模型---decoder

摘要：一、结构 1.编码器 Transformer模型 encoder - nxf_rabbit75 - 博客园 2.解码器（1）第一个子层也是一个多头自注意力multi-head self-attention层，但是，在计算位置i的self-attention时屏蔽掉了位置i之后的序列值，这意味着：位阅读全文

posted @ 2019-11-27 20:25 nxf_rabbit75 阅读(2533) 评论(0) 推荐(0) 编辑

Transformer模型---encoder

摘要：一、简介论文：《Attention is all you need》作者：Google团队（2017年发表在NIPS上）简介：Transformer 是一种新的、基于 attention 机制来实现的特征提取器，可用于代替 CNN 和 RNN 来提取序列的特征。在该论文中 Transform 阅读全文

posted @ 2019-11-27 20:11 nxf_rabbit75 阅读(3685) 评论(0) 推荐(1) 编辑

BERT安装与使用

摘要：环境： python 3.5 tensorflow 1.12.1 bert-serving-server 1.9.1 bert-serving-cline 1.9.1 官网上说要保证Python >= 3.5 with Tensorflow >= 1.10 1.安装BERT服务端和客户端 pip i 阅读全文

posted @ 2019-11-27 10:30 nxf_rabbit75 阅读(8969) 评论(0) 推荐(0) 编辑

2019年11月23日

32(2).层次聚类---BIRCH

摘要： BIRCH:Balanced Iterative Reducing and Clustering Using Hierarchies 算法通过聚类特征树CF Tree:Clustering Feature True来执行层次聚类，适合于样本量较大、聚类类别数较大的场景。阅读全文

posted @ 2019-11-23 14:23 nxf_rabbit75 阅读(272) 评论(0) 推荐(0) 编辑

32(1).层次聚类---AGNES

摘要：层次聚类hierarchical clustering 试图在不同层次上对数据集进行划分，从而形成树形的聚类结构。一、 AGNES AGglomerative NESting：AGNES是一种常用的采用自底向上聚合策略的层次聚类算法。阅读全文

posted @ 2019-11-23 14:20 nxf_rabbit75 阅读(637) 评论(0) 推荐(0) 编辑

31(2).密度聚类---Mean-Shift算法

摘要： Mean-Shift 是基于核密度估计的爬山算法，可以用于聚类、图像分割、跟踪等领域。阅读全文

posted @ 2019-11-23 14:19 nxf_rabbit75 阅读(251) 评论(0) 推荐(0) 编辑