yuerspring

摘要：当前京东数据平台用到spark 的五种方式1.spark sql 数据从Hive 同步到ES 用python包装命令，使用spark-submit 提交，run_shell_cmd(spark-submit) 具体案例可以参考另外的博文2.机器学习会用到pysp... 阅读全文

posted @ 2018-08-09 09:16 yuerspring 阅读(315) 评论(0) 推荐(0)

摘要：一、引言近年来，随着分布式数据处理技术的不断革新，Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新，对大数据集合的计算和存储成为现实，数据仓库/商业分析部门日益成为各类企业和机构的标配。在这种背景下，是否能探索和挖掘数据价值，具备精细化... 阅读全文

posted @ 2018-08-07 13:32 yuerspring 阅读(244) 评论(0) 推荐(0)

摘要： Artificial Intelligence and Machine Learning have become the most powerful technologies of the future. One of the key domains which ar... 阅读全文

posted @ 2018-08-01 20:43 yuerspring 阅读(155) 评论(0) 推荐(0)

摘要：看到一篇关于高效学习的文章，分享给大家，转载自卢松松博客。每个人从出生到老去，都是需要不断学习不断获得新知识的。我们每个人都清楚，知识真的是这个时代最稀缺的一种资源。只有掌握更多的知识，我们才能在这个社会上更好的立足。那么，为了掌握更多的知识，获得新的技能，我们就需... 阅读全文

posted @ 2018-07-31 13:25 yuerspring 阅读(687) 评论(0) 推荐(0)

摘要： # check table 的 partitionhive> show partitions table_name ;如果是外部表，不小心把表给删除了，可以适用下命令重新关联表和数据[MSCK REPAIR TABLE] 全量修复分区hive> msck repa... 阅读全文

posted @ 2018-07-23 17:26 yuerspring 阅读(1477) 评论(0) 推荐(0)

摘要：在大数据处理中经常遇到业务端发送json 数据到 table 里的情况，这个需要数据开发工程师能够准备对json string 进行解析，并重新定义新表的结构。在网络上看到很多网友提到 get_json_object ,json_tuple 的使用和案例 ... 阅读全文

posted @ 2018-07-18 14:13 yuerspring 阅读(1238) 评论(0) 推荐(0)

摘要：京东618 想想都兴奋，很多商品要打折，这是我们从用户处看到的镜像大家都摩拳擦掌期望在这天买到自己心仪又实惠的商品但是作为京东的业务和研发人员来说，他们可能都已经连续三四天在公司待到凌晨2,3点保证整个事件的正常有序进行作为我个人而言是仓库部门，压力主要集中在离线... 阅读全文

posted @ 2018-06-21 18:39 yuerspring 阅读(177) 评论(0) 推荐(0)

摘要： select explode(Array('row1','row2','...','rown'))Result col_name row1row2...rown 阅读全文

posted @ 2018-06-16 16:54 yuerspring 阅读(1387) 评论(0) 推荐(0)

摘要：阅读全文

posted @ 2018-04-22 12:12 yuerspring 阅读(137) 评论(0) 推荐(0)

摘要： ‘’‘’‘’依然是单层神经网络 import numpy as npimport matplotlib.pyplot as plt'''在上篇博客中，我们实现了简单单层感知机用来分类，但是异或问题不能被解决假设我们的数据集依然是x1 ,x2 ,但是我们需要补充更多... 阅读全文

posted @ 2018-04-21 01:01 yuerspring 阅读(230) 评论(0) 推荐(0)