摘要:
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegression from sklearn.datasets import load_boston from sklearn.model 阅读全文
摘要:
4.顺势响应:网站的高性能架构 什么是高性能的网站? 网站性能是客观的指标,可以具体体现到响应时间、吞吐量等技术指标,同时也是主观的感受,而感受则是一-种 与具体参与者相关的微妙的东西,用户的感受和工程师的感受不同,不同的用户感受也不同。 网站性能测试 性能测试是性能优化的前提和基础,也是性能优化结 阅读全文
摘要:
阅读全文
摘要:
机器学习基本方法 回归预测的y是连续值,分类预测的y是离散值; 有监督学习效果好一些; 区别:有无标签和明确目标 ‘ 数据集 训练集与测试集 线性不可分,升维 机器学习常用工具 阅读全文
摘要:
算子用法 1)该操作内部其实执行的是 coalesce 操作,参数 shuffle 的默认值为 true。无论是将分区数多的RDD 转换为分区数少的 RDD,还是将分区数少的 RDD 转换为分区数多的 RDD,repartition 操作都可以完成,因为无论如何都会经 shuffle 过程。 val 阅读全文
摘要:
常用算子用法 1)将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。 val dataRDD: RDD[Int] = sparkContext.makeRDD(List(1,2,3,4)) val dataRDD1: RDD[Int] = dataRDD.map( num 阅读全文
摘要:
RDD创建 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) val rdd1 = sparkContext 阅读全文
摘要:
3.大型网站核心架构要素 软件架构可以定义为:“有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计”。 除了系统功能需求外,还有如下五个架构要素: 性能 也正是因为性能问题几乎无处不在,所以优化网站性能的手段也非常多,从用户浏览器到数据库,影响用户请求的所有环节都可以进行性能优化。 阅读全文
摘要:
import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable object Spark05_Bc { def main(args: A 阅读全文
摘要:
RDD 与分布式共享内存的异同 分布式共享内存 (Distributed Shared Memory ,DSM) 是一种通用的内存数据抽象 ,这种通用性同时也使其在商用集群上实现有效的容错 性和一致性更加困难。 此外, RDD对于扫描类型操作, 如果内存不足以缓存整个RDD,就进行部分缓存, 将内存 阅读全文