2018 研一下

五月

最后一周:浑浑噩噩大约一个月,找工作要紧,不能再这样了

 

第三周:

这周要做的: 基于稀疏组合学习的异常事件检测技术研究

第一二周:

距离开始复习期末考试还有一月的时间,这一个月的时间里应该做什么?

基于无人机的动作检测方面

第一周 干了啥?做成了啥?啥都没有,满满的疲惫,什么都不想做,大概是第四月的三周开始.为什么会这样那,我猜第一是两周前做算法的挫败感吧,感觉自己对算法的幻想似乎全部破灭了,然后没有了具体的目标,就想自暴自弃.哎

这看来就是真实的我,情绪忽亢奋,忽颓废,这只是读研下的一个缩影,可能这种状态一直存在,只是有不同的表现形式,高考前半年颓废,大学时时而的颓废,现在又回来了~it's real me

这种状态没有对错,只是会让人太丧了,什么都不想做,浑身无力,好像给自己再灌几碗鸡汤都没用,

问题出现,那么如何解决?

1.专注一个小任务

两周内完成专利说明部分,这周任务是异常检测部分的方案:

2.重新进行职业规划

大数据开发工程师与算法的应用

3.补计算机基础 多个任务串行学习,先从最难,最抽象的操作系统开始,再是分布式

a.操作系统,分布式 基础知识,需要好好补一下,

基本操作系统学习:

分布式存储(结构化存储关系型数据库,非结构化存储:HDFS无法支持随机访问;半结构化存储:NOSql,HBASE等;In-memory 存储 memcahed Redis内存k-v),

分布式计算(MapReduce-like 系统:hadoop,spark类似;Streaming 系统:Storm, Spark Streaming, Flink; 图计算系统),

分布式管理

task list: 牛客,阿里大学

b.java语言系列,多线程,虚拟机等

四月

今年大目标:  能有算法岗的能力!

有多个技术的点:

1.机器学习方面  

机器学习算法方面的基础知识 

数学原理,最优化方法

大数据处理工具/架构方面

算法相关的项目经验

a.算法的原理,损失函数,推导,优缺点,适用条件等基本知识,以及工程实现(单机,分布式,算法优化)

b.数学方面的提高:最优化!这个点很重要,常用的如LR的各种优化方法,DL的各种最优化方法   数理统计方面有什么好的切入点???目前还不知道

c.大数据处理框架的使用, spark等分布式处理,ML工具的使用,  架构源码方面的了解,各种分布式的思想!!!

d.sql 类sql等工具的掌握.

e.竞赛方面(kaggle,天池, 传统数据挖掘,图像,NLP等方向)

f.能否有好的机器学习实践的开源项目学习??

2.深度学习方面

3.工程方面

spark hadoop

sklearn

TensorFlow 要不要源码级别去研究??

学习步骤

  • 看Paper,了解TensorFlow核心概念
  • 看官方文档,了解Usage
  • 参照文档写Demo
  • 使用TensorBoard加深印象
  • 搭建分布式TensorFlow
  • 学习深度学习算法
  • 写更多的Demo
  • 学更多的深度学习算法
  • 写更多的Demo
  • 参与TensorFlow社区讨论
  • 看TensorFlow源码

如何达成大目标的阶段性目标: 

机器学习方面:

1.算法的原理等相关知识的梳理,一个个的算法来,包括算法的自己实现,与spark分布式实现,sklearn源码,等 [DT,KNN,LR,GBDT,RF等,SVM]系统的学习与整理,定好计划,一个个来,论文学习??数据,博客等资料的整理;

2.最优化算法的实现??看懂原理,尽量尝试在上面实现的算法上面使用

3.sql修炼,刷LeetCode, 基础算法题什么时候开始刷?? 刷完SQL再说吧, nosql方面,以后再说吧,先留意下

4.spark学习,spark数据预处理,特征提取,机器学习等流程; 最好找一个需要使用spark的大数据竞赛  spark架构方面以后再说   -> Scala底层实现

其他算法等到后面再说

学习序列:LR,LR相关最优化方法, sklearn最优化实现方法   第二周

spark的数据预处理方法, spark机器学习使用,spark 分布式算法学习  第三周

深度学习方面:

技术栈:

路线:

两周搭建好; 基于静态目标检测的架构 ;  这两周内要做的,具体无人机视频情况-低空巡航的高度,高空巡航的高度,两种情况下视频的具体情况;

点: 是否能提高单个类别的检测精度?直接将网络弄成二分类那?  特定感受野, 能不能在单个不同目标中,将不同卷积大小,感受野等超参数化,训练成适用于不同单分类的二分类识别??(先探究不同单分类中,目标大小,受到感受野的影响等);

下一步是基于视频的目标追踪, 在单个静态目标检测的基础上,由有了上下文之间的关系,(工作难度?) 可分为静态情况下的目标追踪和动态情况下的目标最终? 传统方法的目标追踪和深度学习目标追踪?   

深度学习3D模型重建

视频中的目标检测可利用帧间信息,对目标运动进行建模预测,提高检测效率

点:由远到近拉近镜头的追踪问题??  遮挡追踪问题,由于无人机俯视的特定,半遮挡能不能改进??

几个点: batch Normal  what?how?why?

数据集标注问题:静态与动态数据集标注;

几条线:RCNN ,fast RCNN, faster RCNN , yolo1,2,3 ,SSD接下来一周至少要完成两个; 

传统神经网络的实现: LeNet-5,alexnet,ZFNET,GoogleNet,VGG,ResNet tf与caffe等不同实现 ,多GPU实现

第三周:

第一天:沉迷爬虫,无法自拔,一天都在鼓捣爬虫

第二天:上午沉迷爬虫, 下午决心不能在这样了; 下午重新审视 CV问题,继续之前的工作! 

1.opencv学习的必要性?  2.如何快速实现fastrcnn训练  3.下一步的目标是什么?

 第三天: 上午使用tf来训练 voc 争取一天就做完, 晚上继续机器学习的研究 或者爬虫

 下午: 上午 tf 训练 VOC失败,要想解决估计需要去研究源码,下午 再花10分钟时间收个尾, 然后去看keras版的代码!

这周要把keras版跑通,下周要看SSD版的目标检测; 五一之前,目标检测阶段要基本结束了!给自己点压力

还需要做的: Faster RCNN Yolo SSD   每个点通下来; 然后几个再串联起来

1.faster RCNN keras源码研究,跑通!!

2.修改自己的数据使之能够训练出来,并得出结果 

3.去看lg的SSD版

4. 看与总结SSD的原理

5.是否继续yolo??看工作量

五一假期期间,总结全部的工作! 

五一后第二周  开始视频上的识别与追踪, 五一与五一第一周这些东西都告一段落;

 

第二周

第一天:白天在鼓捣cifar10网络,晚上 LR原理和SQL题目

第二天 :上午上沙比课,下午开始撸faster rcnn ; trick:白天把python的一些语言特性学习下, 晚上:LR单机实现  

第三天:上午:fast RCNN理论学习,基本捋了捋所有点(但是ROI有两个地方不是很了解,明天继续看faster RCNN) 明天好好看看 keras实现的faster RCNN  ;DL的trick学习下;  下午开始看Google实现的cifar 10 分类,学习里面的各种API,trick等  [tf 学习曲线很像C++]

第四天 白天状态特别差,所以晚上开始重新来过, 先听15-20分钟的live, 今天晚上工作是:

第五天 每天的状态都是想的太多,能做到的太少;  野心太大,能力很小 回顾这一周,我又做成了什么?? 混混度日,虽然有一方面是学习思路没有转变回来,但是主要还是执行力太差,自制力太差

学习能力?解决问题的能力?

https://zhuanlan.zhihu.com/p/25845413

学习一个技术的原则,从基础开始 还是 从问题开始,从基础开始学院化,从问题开始,功利化(如何从问题开始学到深? 思考:工作记忆和长期记忆 记忆需要重复!)

行为= 动机 + 行动能力 + 触发点

元学习课 的课程设计, xdite老师为了让我们“上瘾”,1.降低行动的门槛(第一节课的作业是玩游戏),2.提高行动的动机(完成作业有机会获得奖品),3.触发行为的发生(督促我们写作业拿奖品)。

级别有: 新手 (400小时 一个半到两个月) 熟练工 (寻找兴趣点,找到自信,坚持下去)  精通者 (不知道,接触不到) 专家

学习: 如何学习 学习的策略 执行的方式 

执行方式: 专注一个点! 不要被其他的分心,把其他 不影响主进程的记下来,挂起!!! 分清主次

第一周 

alexNet  tf/models/tutorials 等TensorFlow框架 每天一小时   VGGNET   GoogleNet   ResNet   CIFAR-10 and ImageNet's dataset of 1000 classes.

第一天: caffe的RCNN实现,RCNN论文与关键技术细节; caffe安装成功;TensorFlow一小时学习完成;晚上两个小时李飞飞课程;

第二天:tf和caffe实现alexNet;  明天早上前两节课:(看书)  ;实现AlexNet;

务实:1.学东西的速度(加快,策略是:制定好策略,制定好计划,找准方向和痛点);  2.技术的深度和广度的把握,抓住要点深入,也要有前瞻性纵览性的看法  3.计划,自律,效率    

务虚:看问题,找问题;  技术路线的制定!!! 目前最重要的还是 务实的第一点,学东西的速度

新手 熟练工 精通 专家 

周六:今天有很多需要总结的! 

晚上任务:在看完卷积的东西后,学自己的东西, 1.sql联系, 2.传统机器学习算法一个个来,顺便实现等.加强训练  中间间隔着来学习优化算法 3.效率低可以看下视频

白天任务,深度学习,深度学习的课程,课程,

今天晚上完成需要看的深度学习课程 ;sql 开始;

周天: 白天:VGGnet , Google Net 一天时间基本完成理论和基本实现; AlexNet训练比赛数据集,包括可视化等,实现一个模板; 目标检测方面:

完成这周需要看的深度学习课程, 

白天...啥也没干成吧.垃圾!

晚上:DT开始,继续SQL  晚上开始学SQL, 明天上午看Alex for cifar,下午目标检测;  上午吃饭前看看前瞻性论文

两道SQL题目花了一个半小时,明天注意下时间, 能不能用一个小时???  或者每天一道题吧

LR:

三月 

新年新气象,新年新计划

第四周,

这一周第一天和上一周最后几天效率都不怎么样,这周需要做的工作: 基于视频的情绪识别demo,论文大体了解,  晚上每天保证三个小时的看课程时间!  下午广告的比赛,特征与模型联系   这半年的学习路线问题

第一天:上午啥都没干,下午啥也没干成 ,晚上听课,

那些彷徨与迷茫,遇到困难就像放弃,遇到迷茫就什么都不敢做,我又这样了,像以前一样,面对一个迷茫的地步,或许只能迷茫的前进(后退),我应该做什么,我应该学什么,我为何不开心,我应该怎么办.下一步不知道怎么走,那就只能闭着眼先走吧,小小的步子,小心的走,

1.选择一个图形方面的经典问题,查看论文,梳理发展 视觉跟踪 目标识别 语义分割(场景理解 街景分割 ) 图形检索 人脸相关 行人检测 图像识别理解,人脸检测识别、目标检测和跟踪、OCR、增强现实、图像质量评价,图像分割等等方向,选着一个领域仔细研究

第二天:无人机与视屏的交叉领域研究可行! 明天任务应该是关于目标检测的demo实现与 目标检测的理论总结,晚上又被琐碎的事情分心了,九点二十才开始继续看李飞飞的视屏,这次要十二点回去.

第三天,上午任务:写一个简单的目标检测的review,继续看关于无人机的所有几十篇相关的硕士论文,晚上,不去上自然语言的课程,争取将所有的卷积网络及之前的课程看完,看不完就加班看

新的一天,虽然很多地方还是不行,但是终于心中有了方向和底气,实验室这几个大三的师弟让我真正感觉到了压力,以后要有很多的要弄的,先把目标检测这个方向做一段时间,

第四天:任务:1.上午 两篇英文论文,两篇水中文学位论文,上午还有梳理一个具体的学习方案,

论文1:各个网络之间的性能等比较.目的 看看论文的要点和各种网络对比的细节

把常见的这几个网络的基本改进等细节梳理清楚,再决定要不要继续读原始的论文

关于实现方面,先让林飞实现,我先梳理基础的理论

晚上继续看视频,一定要看到卷积那里!!

论文到了晚上还是没看... 明天一天争取学好caffe,并且实现下faster R-CNN这个经典网络,

第五天: faster r-cnn原理,模型结构,推导等,看caffe的官方实现,学caffe基本功能,先把caffe版faster r-cnn跑起来,查看细节,看是否能直接实现单任务识别,

周天:总结下这周做完,没做完的事情,想想下周做什么:

 

先看论文,

第三周

3.19 做比赛,有点迷茫,明天重整旗鼓

3.20 上午:深度学习方面: 继续了解卷积神经网络  晚上看李飞飞的课程(每天必须四个小时的课程), 卷积中参数的计算,经典神经网络的实现,350表情识别的实现,并对自己找到的图片进行处理,emotiw2018竞赛等的论文

  下午:每天下午固定做竞赛,继续提取特征,交叉特征,同时调整昨天特征的参数,搞定评测中结果的问题,

3.21 上午深度学习 1.卷积中的参数与参数计算,可视化工具, 2.350px 表情实现 3.图像综述论文4.视频表情三篇论文 下午:比赛 晚上: NLP课程上看看论文, 继续课程

3.22 一天都在鼓捣机器,晚上听cs231n的课程还算有点体会

3.23 上午:花书 继续听课 训练出新的网络, 找emotiw的比赛github 论文等,晚上继续工作  下午,竞赛的xgboost模型使用 晚上:听课,

第二周

大目标/小目标  3 4 5 6四个月 完成三个大型数据比赛

关于spark 这周正式开始用spark做数据处理,这个月完成两本书

3/12 C上午SVM算法开头  下午:D(被老师拉去听课,没时间)基于o2o数据集 使用 LR gbdt rf  xgboost 等进行调参等操作,参考其他几个人的调参部分   晚上:没时间去(spark学习 )   cs231n课程学习 ,

3/13 D英语听说,spark学习  回来后继续推导svm 下午:先做o2o的题目,完成昨天的东西     晚上:sc231n  图像识别小作业

3/14 昨天弄得都是垃圾, spark可以先放下了, svm一会回来继续推导,最麻烦的是下午的东西,o2o连续几天没有做成,今天因为体检,计划调整

上午 看李飞飞的深度学习课程,下午上课,带着svm 继续梳理推导, 晚上竞赛必须完成!!!!!!!!!!!!!已经拖了好几天了!

晚上11点半睡觉

3/15 早上6点20起床,去跑步, 6点半开始,只跑了15分钟,哎~~ 明天继续保持15分钟吧,先坚持一周,

上午 svm,梳理推导,今天目标是 SMO等,  十点钟天池放榜,然后如果看公式看累了,调一会参数

下午: 继续竞赛,广告搜索业务 ; 

晚上:李飞飞 前7个课时要完成, 时间充足的话,搭建一个keras的网络,熟悉下   ;晚上10点前提交一次,十点后再提交一次

第一周

时间宏观规划 每天要求自己8点到实验室, 下午两点到实验室  晚上11点回去  12点半之前睡觉(设置手机自动关机)

规划: 晚上 学习自己计划外的东西(如cs224d cs231n等课程,需要每天明确的时间的)

首周计划试行:spark工具学习  cs224d列出计划和方案

3/1 下午 cs224d class1 ,一下午看完第一节课,先定计划为一周三节课,一天半节课

3/1 晚上 两个探索,第一是关于数据竞赛方面 第二个是关于spark工具学习方面,各有两个小时时间,制定一个下面一周的试学习计划

3/2-3 hadoop spark 环境 学习计划  ,hadoop权威指南学习

keyword:

  mapreduce  streaming

  hdfs(数据块大小 namenode datanode 命令行接口 java api接口 ) (数据完整性 压缩 序列化writable)

  YARN 资源管理系统 节点管理器 调度选项

3/3 晚 自然语言处理的英文课程完全听不懂,我先看下数学之美以及研一的自然语言处理怎么个上法,再来觉得下一步,这几天先看数学之美

3/5 等spark书到, 继续o2o 了解广告那个比赛, gbdt xgboost 学习

3/6 上午 gbdt xgboost

3/7 上午 机器学习 集成方面回顾  下午 spark 新书到了,学习下  晚上;nlp课程 回来后继续比赛

这个o2o比赛现状:目前代码出了很大问题, 可以去继续调,但是效率不高,可能会花更多的时间

目前策略是:1.继续看wepon的整理特征后如何处理的,调整自己代码  2.把他sql里面的思想和特征用pandas实现一遍  3.研究他是怎么调参的 4.研究他是怎么做模型融合的

3/8  上午:公式推导,xgboost论文  英语课准备六级怎么复习 下午:spark 和比赛    nlp目前需要做的不够,动力也不足,完全的全新领域,进入困难,尝试转向 图像方面 cs231n 3/9晚上开始学习,周末两天得出具体的方案 xgboost后下一步具体的就定位深度学习的回归

3/9  上午看懂gbdt,最晚周天要开始看cs231n这门课, 下午:spark,也是周天结束基础的应用, 晚上 软件工程,和给人上课

3/10[D] 9点后继续比赛 学习其他特征.; xgboost 调参 或spark学习  

3/11 新的一天,新的开始 今天要结束两个东西 一个是xgboost   一个是o2o优惠券预测

一月

第三周  Back 找到自己的切入点 未来40天,安排20天的任务

几个可以考虑的点:算法(ML看看以前的计划,然后复习,并且补足 ,NLP开始学习与爬虫相关 ,CV开始学习 ) 数据挖掘实践(比赛, 练习) Spark(了解spark如何使用,自己安装,了解其算法的写法) 其余的知识  春招实习生练习

周二:上午 好好做计划  下午:NLP试学习  晚上:算法总结与下一步的计划   下午什么都没干,制定了个总的计划,晚上总结完之前进度,确定下一步计划后,可以玩游戏

第一周,第二周 准备考试

第一阶段还有六天1.2~1.7 18个小阶段,

模式识别 一个上午,一个下午就可以,准备好要背的,和要会的大的知识点 

数字图像 三个小阶段 上午 下午 晚上 分开

计算机网络/ 算法 每天都有 

第二阶段1.8 一天,模式识别  1.9 1.10 计算机网络  1.11 两个阶段数字图像  1个阶段算法1.12  下午算法 

1.2星期二 上午准备模式识别, 下午计算机网络  晚上算法

1.3星期三 下午 数字图像  网络 ,晚上 计算机网络

1.4星期四 早上背:算法前四章内容,第五章排序集组合集  网络:ARP简答题, tcp状态转移,流量控制,拥塞控制, 上午算法 下午网络 晚上算法

1.5星期五 上午网络TCP全部,RAP, 算法 记忆 下午 模式识别 晚上 网络

1.6星期六上午  下午 算法的第五六章   网络 第六章 路由协议   

1.7星期天上午 模式识别(过一遍) 数字图像过一遍 下午 算法 T(n)的计算 ,调度算法,分支限界法  晚上 网络 rip 路由协议 最优前缀码    最后回去前,把算法和网络的东西都要从头过一遍,知道啥应该准备,啥没准备

1.8星期一 晚上考模式识别 上午 下午复习模式识别

1.9星期二 上午 网络  下午 算法  晚上数字图像

1.10 星期三 晚上考网络 一天网络

1.11 星期四  上午 数字图像 下午 算法 晚上数字图像

1.12星期五 上午数字图像 晚上算法   下午看算法

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2018-01-02 09:20  BigJelly  阅读(217)  评论(0编辑  收藏  举报