摘要:
转自:https://www.cnblogs.com/tnsay/p/5753838.html Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此, 阅读全文
摘要:
转自:https://www.cnblogs.com/skyme/p/4651331.html 什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则 阅读全文
摘要:
转自:https://snaildove.github.io/2018/10/01/9.EM_and_GEM_LiHang-Statistical-Learning-Methods/ 前言EM(期望最大)算法有很多的应用,最广泛的就是混合高斯模型、聚类、HMM等等,本质上就是一种优化算法,不断迭代, 阅读全文
摘要:
转自:https://www.cnblogs.com/pinard/p/6912636.html EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。本文就对E 阅读全文
摘要:
https://blog.csdn.net/wkebj/article/details/77965714 阅读全文
摘要:
转自:https://blog.csdn.net/weixin_39653948/article/details/105010730 写在前面 2018年,在Coursera上学习Google的课程时,使用到了Colab,当时了解不深,老是放开课程链接,不需要配置,只需要密钥就可以做相关作业和演示代 阅读全文
摘要:
转自:https://www.jianshu.com/p/06c6f9e50974 最简单的注册UDF 直接将lambda表达式注册成UDF 下面是一个简单的清洗函数 from pyspark.sql.types import StringType spark.udf.register('sex_d 阅读全文
摘要:
自定义聚合函数 UDAF 目前有点麻烦,PandasUDFType.GROUPED_AGG 在2.3.2的版本中不知怎么回事,不能使用! 这样的话只能曲线救国了! PySpark有一组很好的聚合函数(例如,count,countDistinct,min,max,avg,sum),但这些并不适用于所有 阅读全文
摘要:
转自:https://www.jianshu.com/p/9d3d0c64c894 最后一次更新日期: 2019/4/13 NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象(ndarray)和用于处理数组的例程集合组成的库。 使用NumPy, 阅读全文
摘要:
转自:https://mp.weixin.qq.com/s/EMCZHuvk5dOV_Rz00GkJMA 【文末有彩蛋!】推荐阅读时间:8min~13min主要内容:简介明了的讲解一些Attention Model的套路和理论 作者:YBB单位:清华大学研究生1Attention 的本质attent 阅读全文