05 2021 档案

摘要:####1.深度学习的那些大牛们 ”约书亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)和杨乐昆(Yann LeCun) https://baijiahao.baidu.com/s?id=1629243641618010999 Hinton https://z 阅读全文
posted @ 2021-05-28 23:42 笔记_y 阅读(261) 评论(0) 推荐(0) 编辑
摘要:python实现神经网络 import numpy import scipy.special class neuralNetwork: # initialise the neural network def __init__(self,inputnodes,hiddennodes,ouputnode 阅读全文
posted @ 2021-05-27 15:24 笔记_y 阅读(177) 评论(0) 推荐(0) 编辑
摘要:####action算子 top。 top算子作用是从RDD中返回最大的前num个元素列表,结果默认降序排列。 如果key参数有值,则先对各元素进行对应处理,以我们PPT中的第三个例子来说,我们对key进行了传参,为str,即对将所以元素转换为string类型,再进行降序排序,再按num的值取前几个 阅读全文
posted @ 2021-05-24 13:30 笔记_y 阅读(111) 评论(0) 推荐(0) 编辑
摘要:###RDD ![image](https://img2020.c 我们先定义了一个数组tmp,后面的rdd都是以这个数组为基础创建的。 第一个操作是rdd调用sortBy算子,对应参数中lambda函数作用是返回元组的第一个元素。大家可以看下新的rdd是以tmp中每个元组的第一个元素排序的 第二个 阅读全文
posted @ 2021-05-24 13:25 笔记_y 阅读(42) 评论(0) 推荐(0) 编辑
摘要:####Spark SQL&&DataFrame Spark SQL是一种结构化的数据处理模块。它提供了一个称为Data Frame的编程抽象,也可以作为分布式SQL查询引擎。 一个DataFrame相当于一个列数据的分布式的采集组织。在一个关系数据库或R/Python中 DataFrame的概念相 阅读全文
posted @ 2021-05-22 17:05 笔记_y 阅读(447) 评论(0) 推荐(0) 编辑
摘要:####action算子 1.reduce(function) reduce将RDD中元素两两传递给输入函数,同时产生一个新值,新值与RDD中下一个元素再被传递给输入函数,直到最后只有一个值为止。 from operator import add add(1,2) 3 sc.parallelize( 阅读全文
posted @ 2021-05-22 16:44 笔记_y 阅读(152) 评论(0) 推荐(0) 编辑
摘要:RDD的创建 通过已知的并行集合创建。可以通过已知的SparkContext的parallelize方法将一个已存在的集合变成RDD data=[1,2,3,4,5] distData=sc.parallelize(data) #通过并行化创建RDD distData.collect() 将内存中的 阅读全文
posted @ 2021-05-22 16:22 笔记_y 阅读(654) 评论(0) 推荐(0) 编辑
摘要:Student.py from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("student") \ .getOrCreate() df = spark.read \ .format("csv" 阅读全文
posted @ 2021-05-22 14:11 笔记_y 阅读(76) 评论(0) 推荐(0) 编辑