06 2017 档案

Impala与Hive的比较
摘要:http://impala.apache.org/docs/build/html/topics/impala_components.html https://sanwen8.cn/p/169uSyN.html https://my.oschina.net/rosetta/blog/749927 1. 阅读全文

posted @ 2017-06-30 16:56 大大的橙子 阅读(328) 评论(0) 推荐(0)

pandas.resample()
摘要:http://www.cnblogs.com/hhh5460/p/5596340.html resample与groupby的区别:resample:在给定的时间单位内重取样groupby:对给定的数据条目进行统计函数原型:DataFrame.resample(rule, how=None, axi 阅读全文

posted @ 2017-06-30 10:55 大大的橙子 阅读(4563) 评论(0) 推荐(0)

pandas to_datetime()
摘要:>>> import pandas as pd >>> i = pd.date_range('20000101',periods=100) >>> df = pd.DataFrame(dict(year = i.year, month = i.month, day = i.day)) >>> pd.to_datetime(df.year*10000 + df.month*100 + df.day... 阅读全文

posted @ 2017-06-30 10:43 大大的橙子 阅读(2157) 评论(0) 推荐(0)

ssl和tls
摘要:HTTP 是一个网络协议,是专门用来帮你传输 Web 内容 SSL 是Secure Sockets Layer 为啥要发明 SSL 这个协议捏?因为原先互联网上使用的 HTTP 协议是明文的,存在很多缺点——比如传输内容会被偷窥(嗅探)和篡改。发明 SSL 协议,就是为了解决这些问题。到了1999年 阅读全文

posted @ 2017-06-29 16:07 大大的橙子 阅读(238) 评论(0) 推荐(0)

虚数的意义
摘要:一、什么是虚数?首先,假设有一根数轴,上面有两个反向的点:+1和-1。这根数轴的正向部分,可以绕原点旋转。显然,逆时针旋转180度,+1就会变成-1。这相当于两次逆时针旋转90度。因此,我们可以得到下面的关系式: (+1) * (逆时针旋转90度) * (逆时针旋转90度) = (-1) 如果把+1 阅读全文

posted @ 2017-06-25 20:23 大大的橙子 阅读(2452) 评论(0) 推荐(1)

Hadoop 2.x常用端口及查看方法
摘要:一、常用端口 所有端口协议均基于TCP。 部分端口说明参见:http://blog.csdn.net/xiaolang85/article/details/8647602 二、查看方法 对于 NameNode 和 DataNode 可通过如下Web页面查看其信息: I. NameNode: http 阅读全文

posted @ 2017-06-23 08:55 大大的橙子 阅读(781) 评论(0) 推荐(0)

写出pythonic的python代码
摘要:http://www.cnblogs.com/dadadechengzi/p/6226071.html 1,列表推导(没当要对序列中的内容进行循环处理时,就应该尝试使用列表推倒) 在python中编写如下的代码是让人痛苦和不高效已经简洁美观的。 毫无疑问,在python中它确实会使得程序的执行速度变 阅读全文

posted @ 2017-06-22 10:41 大大的橙子 阅读(1533) 评论(0) 推荐(0)

Anaconda中配置Pyspark的Spark开发环境
摘要:http://www.cnblogs.com/jackchen-Net/p/6667205.html 如果notebook里没有输出则考虑是否端口被占用(默认8888) jupyter notebook --port=8889 https://geonet.esri.com/thread/18782 阅读全文

posted @ 2017-06-13 13:33 大大的橙子 阅读(1982) 评论(0) 推荐(0)

Spark Mllib
摘要:http://blog.csdn.net/xiaomuworld/article/details/51946672 初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用的mai 阅读全文

posted @ 2017-06-12 16:46 大大的橙子 阅读(526) 评论(0) 推荐(0)

从贝叶斯角度,看深度学习的属性和改进方法
摘要:https://arxiv.org/abs/1706.00473 深度学习是一种为非线性高维数据进行降维和预测的机器学习方法。而从贝叶斯概率视角描述深度学习会产生很多优势,即具体从统计的解释和属性,从对优化和超参数调整更有效的算法,以及预测性能的解释这几个方面进一步阐述。同时,传统的高维统计技术:主 阅读全文

posted @ 2017-06-08 13:53 大大的橙子 阅读(6879) 评论(0) 推荐(0)

ELKK 日志处理
摘要:http://blog.csdn.net/u010022051/article/details/54342357在ELKK的架构中,各个框架的角色分工如下: ElasticSearch1.7.2:数据存储+全文检索+聚合计算+服务端 Logstasch2.2.2:日志收集与分发** Kafka0.9 阅读全文

posted @ 2017-06-07 14:16 大大的橙子 阅读(1263) 评论(0) 推荐(0)

URI与URL
摘要:http://www.cnblogs.com/gaojing/archive/2012/02/04/2413626.html URIs, URLs, and URNs 首先,URI,是uniform resource identifier,统一资源标识符,用来唯一的标识一个资源。而URL是unifo 阅读全文

posted @ 2017-06-05 15:39 大大的橙子 阅读(222) 评论(0) 推荐(0)

REST
摘要:http://www.ruanyifeng.com/blog/2011/09/restful http://www.csdn.net/article/2013-08-01/2816424-Why-REST-is-so-important RESTful service是一种架构模式,近几年比较流行了 阅读全文

posted @ 2017-06-05 15:37 大大的橙子 阅读(184) 评论(0) 推荐(0)

Bootstrap
摘要:非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:[1](1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。(2)根据抽出的样本计算给定的统计量T。(3)重复上述N次(一般大于1000),得到N个统计量T。(4)计 阅读全文

posted @ 2017-06-05 13:48 大大的橙子 阅读(380) 评论(0) 推荐(0)

导航