总结
工具
nexus
jira jenkins mirror
统计和特征提取和建模
关系分析 画像分析 轨迹分析
时空关系计算
数据挖掘算法
数据可视化Echarts等(数据可视化案例palantir)
预统计
其他意见:
1.流程
入职流程、新人培养计划
培训
工作计划
开发/代码规范
版本维护/版本管理/发布管理
## NEW FEATURES ### BUG FIXS ### OPTIMIZATIONS 升级
不同产品接口人
产品发布管理
机器管理
功能和需求:
大数据服务异常断电恢复
大数据集群UPS
HBase启动check和recover
大数据日志集中管理,滚动,定期清理
大数据安全(认证、基于角色授权、加密;Kerberos)
大数据运维(安装部署、配置、监控、异常恢复、健康检查、日志管理、可视化操作、数据备份、告警)
大数据接口(REST/WS/JDBC)
数据迁移(ETL)
数据统计/预统计
大数据统一资源管理(资源弹性调度和隔离,动态回收,任务挂起)
任务队列/任务优先级/资源抢占
内部刊物(知识产权、竞争)
技术
适当的减少ES和Executor的内存也可以达到不错的效果,但是在核数降低时,对索引建立的速度影响较大
在索引的建立过程中,也要注意索引的总shard数量,不能够分配太多的shard数从而影响到建立索引的速度。这里给出的建议是每个索引的shard最少不少于3个,
最多不要超过20个。每个shard的大小最好控制在1-10G的范围内为最佳,根据shard数的大小来决定数据到底分配多少个索引。
计算慢
Spark增量加载占核太多
HBase Region太大
Spark长的计算链做checkpoint
数据循环覆盖
ES/Solr深度分页优化
采集水平扩张,增加并发
集群大时,硬盘损坏问题;磁盘写满问题;集群网络问题
HBase坏块检查和修复
Kafka NotLeaderForPartition
原因:可能是Producer连接了follower而不是Leader尝试写数据,follower拒绝了请求。
解决:restarting the brokers?
Kafka hostname大小写问题
基于表达式引擎实现可配置的Rowkey生成
Groovy
maven-assembly-plugin打包
单元测试
powermock-module-junit4 powermock-api-mockito powermock-module-junit4-rule-agent
HBase单元测试
本地启动一个HBase的mini集群
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-testing-util</artifactId>
<version>1.2.0-cdh5.7.0</version>
Keepalived启停
启动命令/usr/local/keepalived/sbin/keepalived -D -d -S 0
查看进程ps -ef|grep keepalived
停止Pkill -9 keepalived
验证同网段是否有相同virtual_router_id的集群
tcpdump -nn -i any net 224.0.0.0/8
修改日志输出路径:
Keepalived默认所有的日志都是写入到/var/log/message下,由于message的日志太多了,而Keepalived的日志又很难分离出来,需要调整Keepalived日志输出路径。
修改/etc/sysconfig/keepalived:
vim /etc/sysconfig/keepalived
把KEEPALIVED_OPTIONS="-D" 修改为KEEPALIVED_OPTIONS="-D -d -S 0"
KEEPALIVED_OPTIONS="-D -d -S 0"
设置rsyslog,修改/etc/rsyslog.conf:
在vim /etc/rsyslog.conf里添加:
# keepalived -S 0
local0.* /var/log/keepalived.log
重新启动keepalived和rsyslog服务:
service rsyslog restart
service keepalived restart
查看keepalived日志
在/var/log/keepalived.log里查看log
Spark
spark.cleaner.referenceTracking.cleanCheckpoints=true
h属性应用
1.结构化信息描述
2.以图搜图
3.广告投放
4.个人视频智能应用
h属性提取用了深度学习的卷积神经网络(CNN)
算法考虑
性能、耗时、内存、训练时间
主流网络结构
LeNet AlexNet/CaffeNet GoogleNet VGG/VGGMX DeepResudialNet
属性太多时,不可能一个属性一个网络,大量耗时的工作放在共享卷积层,一个网络处理多个属性。人体属性采用多标签能获得较好性能
大数据
Kafka性能:1k每条数据,从进Kafka到可以消费,平均耗时5ms,最大不超过10ms
公司
新员工 -- 新员工培养计划
综合知识竞赛 --(提升管理要求认知)
Shell:
结束进程
val proInfo: Array[String] = Array("/bin/sh", "-c", "/usr/sbin/lsof -i:" + 8080 + "|grep -v COMMAND | awk '{print $2}' | xargs kill -9")
Runtime.getRuntime.exec(proInfo)
学习URL:
http://www.runoob.com/scala/scala-break-statement.html
阿里云栖社区
https://yq.aliyun.com/articles/