摘要:
Spark SQL可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源 一、通过JDBC连接数据库 1.准备工作 ubuntu安装mysql教程 在Linux中启动MySQL数据库: 输入下面SQL语句完成数据库和表的创建: 2.读取mysql数据库中的数据 下载M 阅读全文
摘要:
一、DataFrame概述 在Spark SQL中,DataFrame就是它的数据抽象,对DataFrame进行转换操作。 DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能Spark能够轻松实现从MySQL到Da 阅读全文
摘要:
一、从shark到Spark SQL Hive能够把SQL程序转换成map-reduce程序 可以把Hadoop中的Hive看作是一个接口,主要起到了转换的功能,并没有实际存储数据。 Shark即Hive on Spark,为了实现与Hive兼容,Shark在HiveQL方面重用了Hive中Hive 阅读全文
摘要:
1.情感分析语料预处理 使用酒店评论语料,正面评论和负面评论各5000条,用BERT参数这么大的模型, 训练会产生严重过拟合,,泛化能力差的情况, 这也是我们下面需要解决的问题; 2.sigmoid二分类 回顾在BERT的训练中Next Sentence Prediction中, 我们取出$[cls 阅读全文
摘要:
一、结构 1.编码器 Transformer模型 encoder - nxf_rabbit75 - 博客园 2.解码器 (1)第一个子层也是一个多头自注意力multi-head self-attention层,但是,在计算位置i的self-attention时屏蔽掉了位置i之后的序列值,这意味着:位 阅读全文
摘要:
一、简介 论文:《Attention is all you need》 作者:Google团队(2017年发表在NIPS上) 简介:Transformer 是一种新的、基于 attention 机制来实现的特征提取器,可用于代替 CNN 和 RNN 来提取序列的特征。 在该论文中 Transform 阅读全文
摘要:
环境: python 3.5 tensorflow 1.12.1 bert-serving-server 1.9.1 bert-serving-cline 1.9.1 官网上说要保证Python >= 3.5 with Tensorflow >= 1.10 1.安装BERT服务端和客户端 pip i 阅读全文
摘要:
BIRCH:Balanced Iterative Reducing and Clustering Using Hierarchies 算法通过聚类特征树CF Tree:Clustering Feature True来执行层次聚类,适合于样本量较大、聚类类别数较大的场景。 阅读全文
摘要:
层次聚类hierarchical clustering 试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。 一、 AGNES AGglomerative NESting:AGNES是一种常用的采用自底向上聚合策略的层次聚类算法。 阅读全文
摘要:
Mean-Shift 是基于核密度估计的爬山算法,可以用于聚类、图像分割、跟踪等领域。 阅读全文