2018 年 2月随笔档案 - 张叫兽的技术研究院

名词解析之泛化误差

摘要：原文：https://www.cnblogs.com/justcxtoworld/archive/2013/11/15/3425656.html 一：经验风险机器学习本质上是一种对问题真实模型的逼近，这种近似模型也叫做一个假设。因为真实模型肯定是无法得到的，那我们的假设肯定与真实情况之间存在误差，阅读全文

posted @ 2018-02-25 21:58 张叫兽的技术研究院阅读(331) 评论(0) 推荐(0) 编辑

eclipse “”base revision” vs. “latest from repository”

摘要：base revision（基本版本）：代表的是最近一次从svn服务器上面获取的版本内容；本质还是本地版本，只不过这个版本是上次从服务器上面获取的。 lastest from resource(资源库的最新版本）：代表svn服务器的最新版；其实通过console也可以看出端倪，如果执行了base 阅读全文

posted @ 2018-02-25 21:54 张叫兽的技术研究院阅读(157) 评论(0) 推荐(0) 编辑

通过API访问Ambari的配置

摘要：Ambari所有的服务的组件列表： {"service_name":"HDFS","component_name":"DATANODE","hosts":"c6401.ambari.apache.org"},{"service_name":"HDFS","component_name":"HDFS_ 阅读全文

posted @ 2018-02-25 21:51 张叫兽的技术研究院阅读(416) 评论(0) 推荐(0) 编辑

hive外表parquet文件

摘要：外表关联parquet文件 1. 为什么关联了一次数据文件就不能二次被使用； 2. 为什么删除了employee，select还是可以而且有数据，1,2可能是一个问题外表drop只是metadata表内容删除，hdfs的/user/hive/warehouse中依然有此表；但是如果是manage 阅读全文

posted @ 2018-02-25 21:47 张叫兽的技术研究院阅读(1532) 评论(0) 推荐(0) 编辑

spark-shell与scala生成parquet文件

摘要：spark-shell用户 spark-shell只能spark用户来进行初始化，如果用hdfs或者root将会卡在spark-shell的初始化那个地方。可以用这两个用户来验证spark安装时成功地；但是如果想要通过shell来执行code、command，那么还是要用spark用户。但是如果s 阅读全文

posted @ 2018-02-25 21:44 张叫兽的技术研究院阅读(776) 评论(0) 推荐(0) 编辑

什么是框架

摘要：到底什么是框架？框架其实是一种约束，实现的是某种行为的机制；框架最大的价值是基于生命周期的概念，就是软件提供的服务，在服务从构建到销毁的过程中，生命周期各个节点功能实现层面上面所要遵循的约束和机制。组件（kafaka，log4j）是为了框架的低成本实现（可复用）的产物，可以说是框架的一个实现；但阅读全文

posted @ 2018-02-25 21:36 张叫兽的技术研究院阅读(377) 评论(0) 推荐(0) 编辑

做技术要关注什么？

摘要：每当研究一个新技术，你应该关注的是这个技术背后的东西，比如kudu使用的raft算法，研究大数据的时候，应该看看Google的三篇论文；研究微服务，你要学的是分布式的原理原则，最佳实践。总之你要跳出技术本身来学习其理念，这才是学习技术。阅读全文

posted @ 2018-02-25 21:30 张叫兽的技术研究院阅读(143) 评论(0) 推荐(0) 编辑

RESTful处理JSON

摘要：@ResponseBody，代表着该函数返回的值将会放到response中，如果是复杂形式，将会被解析为JSON；如果返回的是Map，那么前台直接可以通过类似于对象的方式来获取（因为后台返回的json字符串被前台直接解析为就是JSON对象）：早期的时候，返回的是List<Map<String, S 阅读全文

posted @ 2018-02-25 21:26 张叫兽的技术研究院阅读(1185) 评论(0) 推荐(0) 编辑

jQuery操作select

摘要：动态添加option$("#dbs").append("<option selected='true' value=‘optionValue'>optionText</option>");获取Select选择的Text和Value: 1. var checkText=jQuery("#select_ 阅读全文

posted @ 2018-02-25 21:24 张叫兽的技术研究院阅读(128) 评论(0) 推荐(0) 编辑

关于机器学习

摘要：学习的本质是积累样本从机器学习的角度来看学习，其实就是为你创建样本，在学习的过程中就是不断的创建样本的过程，每个样本有粗有细，越细你的样本库越大，学习样本的同时你也是在给样本赋权志，所以一定要尽量学明白，只有看明白了，潜意识才会为你学习的东西赋权值，未来在解决问题的时候，才能够更好的解决问题简单阅读全文

posted @ 2018-02-21 19:53 张叫兽的技术研究院阅读(160) 评论(0) 推荐(0) 编辑

高级管理者和普通管理者区别

摘要：关于高级管理者和普通管理者区别，其实本质是优秀的人和普通的人区别。一种一点很令我感触，优秀的人对于自己的要求永远都是好，而不是差不多，这种在熟人社会里面和稀泥的低效思维，在当今这种高效运转，竞争激烈的社会根本行不通，追求的就是好，就是高质量，你就问一个问题，结果是否对得其自己的期望就可以。阅读全文

posted @ 2018-02-21 19:47 张叫兽的技术研究院阅读(264) 评论(0) 推荐(0) 编辑

一个kafka异常

摘要：卡夫卡经常超时，而且超时时间固定为三分钟，因为时间长度固定，所以逆推一下，发现现有的配置里面有个session的timeout是三分钟，但是其实后来验证发现真是的原因是connect timeout，因为压到卡夫卡的数据处理超过了socket的timeout，于是socket链接超时；但是sessi 阅读全文

posted @ 2018-02-21 19:46 张叫兽的技术研究院阅读(161) 评论(0) 推荐(0) 编辑

怎么读技术书

摘要：怎么读技术书？首先明白每个章节的主题，然后搞明白描述内容是如何和主题关联的。比如比较麻烦的一本书《机器学习》里面的一个章节，讲述的是变分推断，那么你要搞明白，什么是变分推断要解决的问题：获取解的后验分布。那么有了这个主题，后面的长篇的公式的推导，其实都是在围绕这个主题，你就不会迷失在冗长繁杂的推导了阅读全文

posted @ 2018-02-21 19:12 张叫兽的技术研究院阅读(139) 评论(0) 推荐(0) 编辑

Windows下查看什么进程占用文件

摘要：任务管理器→性能Tab→资源管理器→CPU→关联的句柄后面的检索框中录入文件名（关键文件夹即可）。比如我的是在删除tomcat下面的WEB-INF文件出现问题；就输入WEB-INF；mygod，发现时SecurityFX占用了该文件夹；关掉对应的SecurityFX，问题完美解决。阅读全文

posted @ 2018-02-13 21:21 张叫兽的技术研究院阅读(364) 评论(0) 推荐(1) 编辑

关于Apache Phoenix和Cloudera结合

摘要：1. 安装： phoenix的官网最新版4.13.2是有parcle版本的，并不需要从cloudera的labs（实验室）中下载。安装完成后，可以运行一下phoenix的shell来简单验证一下：/opt/cloudera/parcels/APACHE_PHOENIX/bin 2. 在实际的应用中：阅读全文

posted @ 2018-02-12 17:19 张叫兽的技术研究院阅读(1000) 评论(0) 推荐(0) 编辑

Ambari client

摘要：在研究如何修改YARN的资源池的时候，发现了Hortwork在github上面开源了一个Ambari Client； https://github.com/apache/ambari/tree/trunk/ambari-client 不过使用groovy写的；但是没关系，在pom文件中添加了两个依赖阅读全文

posted @ 2018-02-12 15:34 张叫兽的技术研究院阅读(413) 评论(0) 推荐(0) 编辑

Ambari的资源池管理

摘要：操作： YARN→Config→Advanced→Schedule 全靠手写了。然后通过链接进入到resource manager页面，选择左侧链接，点击Scheduler，就可以看到这次添加的队列，support，marketing以及Engineering。参考： https://horto 阅读全文

posted @ 2018-02-12 15:07 张叫兽的技术研究院阅读(687) 评论(0) 推荐(0) 编辑

Sentry的授权模型

摘要：首先在jdbc中指定的hive用户是一个linux的用户（必须和一个同名linux用户一一对应）；这个用户如果是管理员用户，那么可以进行管理工作；比如创建、删除角色，查看角色和用户绑定情况等等；如果不是管理员用户，能做的只是，如果绑定了角色，可以查看角色赋权的表内容管理员权限的设定是在sentry 阅读全文

posted @ 2018-02-12 14:58 张叫兽的技术研究院阅读(617) 评论(0) 推荐(0) 编辑

关于yum

摘要：1. yum的本地安装 yum的install --downloadonly并不会下载全部rpm，应该只是深入到两层或者一层，所以更深入到依赖还是需要自己手工下载，这个在手动安装jdk的时候已经发现； yum的localinstall的规则是高低两个rpm版本，他只会发现高版本，一旦发现依赖（高版本阅读全文

posted @ 2018-02-10 22:39 张叫兽的技术研究院阅读(212) 评论(0) 推荐(0) 编辑

Ambari-HDP

摘要：文档说明以及下载路径 https://docs.hortonworks.com/index.html Ambari的安装路径 https://docs.hortonworks.com/HDPDocuments/Ambari-2.6.1.0/bk_ambari-installation/content 阅读全文

posted @ 2018-02-10 22:36 张叫兽的技术研究院阅读(2615) 评论(0) 推荐(0) 编辑

Ambari的API调用

摘要：GET api/v1/clusters/HDP/configurations可以获得所有的配置信息（例如，http://hdp0:8080/api/v1/clusters/HDP/configurations）；但是只是一级信息；比如我想要获得yarn的scheduler的节点信息，将会找到： 1 阅读全文

posted @ 2018-02-10 22:28 张叫兽的技术研究院阅读(459) 评论(0) 推荐(0) 编辑

CentOS上面搭建SVN服务器

摘要：1.安装svn sudo yum install subversion 查看安装位置 which svnserve 确认安装成功 svnserve --version 2.修改全局配置文件修改全局配置文件，修改svn仓库的路径/etc/sysconfig/svnserve修改OPTION参数为仓库路阅读全文

posted @ 2018-02-05 19:30 张叫兽的技术研究院阅读(139) 评论(0) 推荐(0) 编辑

hive字段原理--有删除一列想到的

摘要：hive删除一张表的字段不会动数据文件，只是修改了一下metadata表里面的表定义；所以会出现一种情况：就是这张表如果之前数据是满的（个格列都有数据），那么被删除的那列后数据都往前窜了一个，最后一个数据看不到了；此时如果再最后添加一列，将会看到最后一个数据，所以在hive的M-R做数据映射的时候不阅读全文

posted @ 2018-02-05 19:25 张叫兽的技术研究院阅读(925) 评论(0) 推荐(0) 编辑

JUnit测试，获取Spring MVC环境

摘要：其他的测试类继承此类即可；在JUnit运行的时候将会加载spring的context，可以用于测试controller以及Service 阅读全文

posted @ 2018-02-05 19:19 张叫兽的技术研究院阅读(253) 评论(0) 推荐(0) 编辑

下士闻道

02 2018 档案