MyStitch - 博客园

[置顶] 为什么中国开发不出流行的操作系统和编程语言

摘要：为什么中国开发不出流行的操作系统和编程语言 Stitch/2020 2 21 引子知乎有两个帖子很有意思， "中国能不能写出操作系统?" "中国为什么没有自己的编程语言" 看了很多回到，有的答案写的很认真，按照编程语言出现的时间顺序等梳理；有的也非常认真，但是逻辑是错的；还有一种是搞笑的。为什么阅读全文

posted @ 2020-05-14 16:34 MyStitch 阅读(5353) 评论(81) 推荐(8)

[置顶] 【转】为什么要写技术博，写在前面的话

摘要： (谢谢陈皓允许我引用他的话)不知不觉，我已经在博客园写了一段时间的博客。最初的是得到朋友的鼓励，想写一个简单快速的Python教程。后来Python教程在豆瓣的Python小组得到许多人的支持，并且在博客园也渐渐有了更多的评论和关注，这一些都大大出乎我的意料。所以进一步写Python标准库，又由于标注库的需要写了Linux的基本概念…… 博客逐渐成为自己生活中重要的一部分。空闲的时间会琢磨如何去写下一篇，写好了又非常期待园友的关注和交流。我迷上了博客这种记录、表达和分享的方式。CoolShell的博主陈皓说，博客是一种消化吸收知识再以自己的语言重新呈现的方式，有助于学习的过程 (私人交流)。我阅读全文

posted @ 2012-11-24 21:34 MyStitch 阅读(447) 评论(0) 推荐(0)

2024年6月10日

电动化浪潮的助力中国汽车产业崛起

摘要：电动化浪潮的助力中国汽车产业崛起原文写于2023年底月，部分数据滞后。汽车产业的崛起，是中国迈向中等发达国家的重要助力。当国外大规模开始认可中国汽车品牌的时候，也是中国成发达国家的象征。* 先来看几个例子，时间线可能有点乱，基本是最近发生的事情： 2022年中国汽车出口超300万辆，紧随日本，排名阅读全文

posted @ 2024-06-10 21:30 MyStitch 阅读(379) 评论(0) 推荐(2)

2020年7月29日

国内汽车产业政策真的失败么

摘要：汽车产业政策真的失败么 2020-7-27 对比高铁的成功，很多人说汽车产业政策是失败的，市场换技术，没有换来核心技术。个人看法，汽车产业政策总体是来说是成功的，现在已经有几个厂商杀出重围，培养了自己的研发体系，供应商体系，产品在汽车市场占据了一席之地，后续随着汽车的消费的理性化，国产车的份额会进阅读全文

posted @ 2020-07-29 16:09 MyStitch 阅读(464) 评论(0) 推荐(0)

2020年7月8日

MySQL 对window函数执行sum函数疑似Bug

摘要： MySQL 对window函数执行sum函数疑似Bug 使用MySql的窗口函数统计数据时，发现一个小的问题，与大家一起探讨下。环境配置： mysql-installer-community-8.0.20.0 问题点：在sum对window函数执行时，如果有重复数据，会直接把相同的数据相加，并不是阅读全文

posted @ 2020-07-08 16:39 MyStitch 阅读(491) 评论(1) 推荐(0)

2020年7月6日

Spark-submit常用任务命令参数和说明

摘要： Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf sp 阅读全文

posted @ 2020-07-06 17:26 MyStitch 阅读(1371) 评论(0) 推荐(0)

Spark TempView和GlobalTempView的区别

摘要： Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用，两者的区别和应用场景有什么不同。我们以下面的例子比较下两者的不同。 from pyspark.sql import SparkSession 阅读全文

posted @ 2020-07-06 16:50 MyStitch 阅读(1816) 评论(0) 推荐(1)

Spark 两种方法计算分组取Top N

摘要： Spark 分组取Top N运算大数据处理中，对数据分组后，取TopN是非常常见的运算。下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据阅读全文

posted @ 2020-07-06 15:35 MyStitch 阅读(3961) 评论(0) 推荐(0)

2020年7月3日

Docker中提交任务到Spark集群

摘要： 1. 背景描述和需求数据分析程序部署在Docker中，有一些分析计算需要使用Spark计算，需要把任务提交到Spark集群计算。接收程序部署在Docker中，主机不在Hadoop集群上。与Spark集群网络互通。需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker 阅读全文

posted @ 2020-07-03 18:08 MyStitch 阅读(2578) 评论(0) 推荐(0)

Spark 环境问题记录和解决方法

摘要： Spark 版本配套表名称版本说明 Spark spark-2.3.0-bin-hadoop2.7 Spark mongo-java-driver-3.5.0.jar 3.5 Mongo驱动 mongo-spark-connector_2.11-2.3.1.jar 2.3 Mongo conn 阅读全文

posted @ 2020-07-03 17:46 MyStitch 阅读(3691) 评论(0) 推荐(0)

HDFS 常用操作命令

摘要： HDFS 文件操作命令注，其实常用命令不用网上搜，和linux下的命令很类似，触类旁通，直接在linux 上 hadoop fs 看一下就行了，不需要刻意去记我把 linux 上的 help 列举下，方便直接看吧，hdfs dfs 与 hadoop fs 效果一样常用的就是 hdfs dfs 阅读全文

posted @ 2020-07-03 17:20 MyStitch 阅读(688) 评论(0) 推荐(0)

2020年7月2日

pandas、spark计算相关性系数速度对比

摘要： pandas、spark计算相关性系数速度对比相关性计算有三种算法：pearson、spearman，kenall。在pandas库中，对一个Dataframe，可以直接计算这三个算法的相关系数correlation，方法为：data.corr() 底层是依赖scipy库的算法。为了提升计算速阅读全文

posted @ 2020-07-02 15:55 MyStitch 阅读(2623) 评论(0) 推荐(0)

Stitch

公告