摘要:
最近这三个方面的论文都读过,这里写一篇博客归纳一下,以方便搞这几个领域的其他童鞋入门。传统的分布式机器学习已经被研究十几年了,目前各大顶会上的分布式机器学习主要是数学味道很浓的分布式数值优化算法。而联邦学习可以看做一种特殊的分布式学习,它有一些特殊的设定,比普通的分布式学习要困难一些,还是有很多方向可以研究的,做好了应该可以发顶会。多智能体系统是一组自主的,相互作用的实体,它们共享一个共同的环境,利用传感器感知,并利用执行器作动。 阅读全文
摘要:
Python中字符串前面我们经常看到加r(R)或u/(U)的前缀,而这两个符号是什么意思呢?r意为raw,表示不包含转义字符的原生字符串。r前缀最常见的用途是正则表达式,因为正则匹配的模式经常包含各种反斜杠等字符,我们不希望它被解析为转移字符,因此需要加上'r'。u(U)前缀表示字符串的编码方式为unicode。 阅读全文
摘要:
在Maven插件的帮助下,VSCode写Java其实非常方便。这一讲我们介绍如何借助maven用VScode搭建Hadoop开发环境。我们需要下载VSCode的Maven for Java插件,该创建是用来构建Java大型项目的(也就是说不只是使用JRE内部的包,而且使用外包的JDK包。内部的包用java命令编译的时候就会自动帮我们导入,但外部的包要稍微复杂一些,最简单的方式就是使用maven工具了)。 阅读全文
摘要:
今年保研时针对面试常见的英文问题做了一些准备,这里记录一下。大致包括:介绍一下你的优点、介绍一下你的家乡、介绍一下你的读研计划等等。 阅读全文
摘要:
个人双非本科在读,今年采保研到了哈工大深圳的CS。这里贴一下我今年保研面试的时候英文介绍,哈哈,仅供想要准备保研面试的同学参考一下。 阅读全文
摘要:
最近需要学习图结构中的社区检测算法,在阅读相关论文的同时跟了Stanford CS246课程的第11讲Community Detection in Graphs,本篇博客为我做的笔记。我们通常认为网络中存在某种模块(modules)/簇(clusters)/社区(communitis)结构,我们常常需要从网络中提取这些结构。而提取这些结构的关键在于发现密集连接的簇,而这常常可以转化为一个优化关于簇的目标函数的问题。按照图的社区划分之间是否重叠,可分为重叠社区检测和非重叠社区检测。非重叠社区检测是指图的社区划分之间没有重叠,而重叠社区检测则允许有重叠。 阅读全文
摘要:
在做实验时,我们常常会使用用开源的数据集进行测试。而Pytorch中内置了许多数据集,这些数据集我们常常使用DataLoader类进行加载。而我们用for语句来遍历DataLoader类的对象时,我们并没有显式将Dataloader转换为迭代器类型。这其实是Python语言for循环的一种机制,一旦我们用for ... in ...句式来迭代一个对象,那么Python解释器就会偷偷地自动帮我们创建好迭代器。 阅读全文
摘要:
在上一篇博文《Python中的随机采样和概率分布(一)》中,我们介绍了Python中最简单的随机采样函数。接下来我们更进一步,来看看如何从一个概率分布中采样,我们以几个机器学习中最常用的概率分布为例,包括二项(binomial)分布/伯努利(Bernoulli)分布、多项(multinomial)分布、均匀(uniform)分布和狄利克雷(Dirichlet)分布。 阅读全文
摘要:
Python(包括其包Numpy)中包含了了许多概率算法,包括基础的随机采样以及许多经典的概率分布生成。我们这个系列介绍几个在机器学习中常用的概率函数。先来看最基础的功能——随机采样。它包括了random.choice、random.choices、numpy.random.choices等函数 阅读全文
摘要:
在上一篇博文《联邦学习中的模型聚合》中,我们关注了在联邦学习中模型聚合(参数通信)的问题,但是对每一个client具体的模型架构设计和参数优化方法还没有讨论。本篇文章我们关注具体模型结构设计和参数优化。首先,在本篇论文中不同的client有一个集成模型,而每一个集成模型由多个模型分量组成,可以清晰地观察到其层次结构。接下来我们就**自顶向下**地分层次展示Client、Learners_ensemble和每个Learner的设计原理。 阅读全文