陕西小楞娃 - 博客园

2021年4月3日

摘要：手动推导代码： from sklearn.naive_bayes import MultinomialNB from sklearn.feature_extraction.text import CountVectorizer if __name__ == '__main__': # 读取文本构建阅读全文

posted @ 2021-04-03 15:50 陕西小楞娃阅读(55) 评论(0) 推荐(0) 编辑

机器学习-线性回归算法

摘要：三张手写推导过程问：为什么不是求点到直线的垂直举例？垂直距离会缩小误差，取y轴上的距离会放大误差，提高精度不好计算线性回归学习套路随机产生w参数把w参数与样本数据代入到误差函数中，求解误差值误差值与用户指定的误差阙值比较如果大于用户指定的误差阙值，继续调整w参数(2/3/4步骤) 如阅读全文

posted @ 2021-04-03 15:46 陕西小楞娃阅读(66) 评论(0) 推荐(0) 编辑

机器学习-科普(-)

摘要：经验 + 思维 = 规律数据 + 算法 = 模型怎么让规律更准？ 1.提高数据量和算法 2.海量数据 3.牛逼算法数据量决定了模型的高度，算法只是逼近这个高度，大数据是机器学习的基础阅读全文

posted @ 2021-04-03 15:03 陕西小楞娃阅读(44) 评论(0) 推荐(0) 编辑

大数据总结

摘要：学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库半结构阅读全文

posted @ 2021-04-03 14:57 陕西小楞娃阅读(54) 评论(0) 推荐(0) 编辑

2021年3月16日

spark_streaming_微批量处理

摘要：数据处理方式有两种有界数据 --> 批量处理无界数据 --> 流式处理数据按照时间处理方式两种离线计算实时计算 spark streaming 微处理数据方式获取元数据，先receiver(并短暂存储) 在进行计算获取元数据，放入到队列中(存储) ，直接direct进行计算服务器方式阅读全文

posted @ 2021-03-16 23:18 陕西小楞娃阅读(408) 评论(0) 推荐(0) 编辑

2021年3月15日

spark_sql_解析器

摘要：解析器优点：如果没有解析器，你可能每次都去别的地方去查询，转换、在解析。有了解析器(内含所有解析的语法)，就直接解析。 idea安装antlr插件创建xx.g4文件 Test01.g4 grammar Test01; oxinit : '{' value (',' value)* '}'; v 阅读全文

posted @ 2021-03-15 21:02 陕西小楞娃阅读(242) 评论(0) 推荐(0) 编辑

spark_sql_函数

摘要： spark_sql_函数待定阅读全文

posted @ 2021-03-15 20:15 陕西小楞娃阅读(26) 评论(0) 推荐(0) 编辑

2021年3月12日

spark-sql-04-spark连接hive的几种方式

摘要：配置spark 目录：/opt/bigdata/spark-2.3.4-bin-hadoop2.6/conf[root@ke03 conf]# vi spark-env.sh 配置：export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.5/etc/hadoop 阅读全文

posted @ 2021-03-12 00:03 陕西小楞娃阅读(460) 评论(0) 推荐(0) 编辑

2021年3月11日

spark-sql-04-on_hive

摘要：设置metastore 机器： ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库、 hive-metastore搭建 ke03: <configuration> <property> <name>hive.metastore.warehou 阅读全文

posted @ 2021-03-11 23:03 陕西小楞娃阅读(63) 评论(0) 推荐(0) 编辑

2021年3月7日

spark-sql-04-hive

摘要： pom: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.3.4</version></dependency> val ss = SparkSes 阅读全文

posted @ 2021-03-07 00:00 陕西小楞娃阅读(44) 评论(0) 推荐(0) 编辑