杭电第一学期

12月  准备自己的学习与期末考试 17年最后一月

目标:好好的总结这半年接触到的经典算法,看的时候参考工业界的实现如sklearn spark等的实现,重点是LR,GLM,NB,KNN;  SVM,DT,ensemble(Tree Base:adaboost rf, gbdt,xgboost) ; unsupervised Learning 1.  Matrix Decomposition(PCA ICA FA 字典学习,稀疏表示) 2. clustering: kmeans DBSCAN 

第三周和第四周准备期末考试    算法,数字图像,模式识别,计算机网络 上午一个,下午一个

最后一周

就像我以前一样.做东西虎头蛇尾,最后又开始无心看书,不能一直这样,这种状态延续了好几周了

现在弄清楚后面要复习的东西的提纲:

模式识别 :比较容易

计算机网络

数字图像

算法  

周二:  上午,数字图像(图像增强)   下午:算法1点半开始(动态规划剩余部分,看基础知识和两三个经典题) 然后回溯法,     晚上:模式识别

周三:  上午:计算机网络  进行到PPT的ARP,下次继续ARP,

然后再去看作业题 和 复习资料  下午:算法    回溯法                     

周四:上午 模式识别 三个半天解决这一课,这是第一个; 今天上午准备:大的知识点,难点攻克, 下一次在准备小的知识点  下午:算法2-3-4题目 下午晚上: 数字图像 PPT和经典问题

周五:

 

第三周:准备期末考试 晚上除了上课就是作比赛,总结思路

周一:计算机网络  算法

周二: 开会 

周三: 网络

周四:网络tcp,三次握手,四次握手,数据包传输,晚上动态规划全部完成,

周五:上午:网络tcp剩下的东西  ,下午回溯法 晚上,算法复习

第二周:上周后几天又颓废了 这周重新计划

主要任务:1.传统算法复习应该开始 2.bayes KNN SVM这周要尽量结束,还有后面树算法,非监督的聚类和降维 后几个应该没太多时间去做了 ,前两个,周一就必须结束 3.DL在EEG等上的应用总结 周一一天与周二上午都要做.这周应该不讲,然后,每天下午都要做这个总结 4.哎,移动推荐算法算是太监了吗.这样很不好.不能这样,但是又没有办法,要不就只能每天10点-12点去做这个,嗯,就这样,10天 20小时,做成啥样就啥样,后几天就开始看答案

星期一:全体,总结DL,做PPT,自编码机 CNN LSTM DBN等应用,理出一个思路来,下午安排出下面一周的计划,晚上模式识别课上把贝叶斯和KNN好好看看,然后回来再总结,10点前完成工作

星期二:上午DL CNN结束, 下午:贪心算法,KNN算法,准备开始SVM 晚上:开始看参考源码 

星期三:上午:KNN,svm开始    晚上:参考源码,看下别人的思路

星期四: 四级

星期五:四级

第一周

算法LR,GLM,NB,KNN 

1.DL最前端的应用 2.DL在EEG和生理电信号的应用 3.DL在语音上关于情绪识别的应用

周一:上午 LR  下午:DL最前端应用 晚上:上课的时候继续来看上午的LR  ,下课后竞赛

周二周三:上午:LR 多分类,LinearModel user guide,GLM  下午: 论文  晚上: 两周内结束移动推荐算法的比赛

周四:上午:贝叶斯分类与回归(GLM);Knn 分类 回归  下午  晚上

 

11月份 

可视化:seaborn库的使用接触了一点,可视化还有很长的路要走,但是不知道该怎么走

任务总览:自编码机    流型学习  深度学习总结   降维   概率图  (采样方法)SQL    hadoop   spark

11月26 11月底,12月初 新的一个月

周计划1:这个月来试点新的计划, 英语听说读的能力,拟定每天6点起床,11点往回走,12点睡觉,每天保持六小时睡眠,中午休息 ,晚饭后休息 

英语具体计划  0.,学发音,这周重点从音标开始 1.单词记忆,中午,晚上各复习一次  2.听VOA 读VOA 录下来,看有什么问题 3.用老友记和老友记里面的台词剧本来练习英语

周计划2:天池,移动推荐算法重新开始,从Titanic上面学习经验

周计划3:算法相关,每天两道算法题,雷打不动,完成不了,就11点半回去

周计划4:读闲书,闲读书,

周计划5:trick Sql这周趁每天的晚上10点-11点期间完成大部分工作 ; 算法作业,每天一道题-两道题,在中午饭后,下午饭前饭后或者晚上 ; 

周一:上午: 特征工程理论相关的总结;梳理Evernote,得出下阶段计划  下午:kaggle Titanic模型融合,最后做一些简单的特征工程  晚上:Sql

周二:早上音标继续,老友记第一集的朗诵;上午,算法开始回顾,回归与分类,各种算法的优劣点,必要的推导,回顾基础  下午: MBA课程开始试着学习  晚上:sql习题开始做点,   算法两道题

周三:上午:总结算法,继续看书,找Blog,收集材料  [目前重点在于收集,之后是总结,再之后就是侧重各个模型直接的对比]  下午:重新开始移动推荐算法的比赛,总结思路,看前面的资料,重新开始  晚上 :网络(上课带着笔记,大体理下网络讲了什么,该学什么,上课睡一会,算法动态规划), Sql命令(上完网络后), 算法两道题(10点前后开始)

周四:上午: 算法总览,   下午:继续做base model  晚上:(主任务待定)动态规划,  sql 前7章总结,关键词  ; 

11月20日第四周:

检讨状态,一直起起落落,在堕落与懊恼中循环,游戏在安装与卸载中往复,这周要紧张起来,找回状态,把手里的任务都完成,再去寻找新的任务点11

数字图像两次作业,  算法全部前面的课程与作业, 网络复习

周一:上午:集成学习 ,今天必须完成总结 然而并没有完成,晚上继续补上; 下午:  kaggle houseprice  ,  继续阿里天池大数据的比赛, 从今天开始每天提交一次,自己学习的过程就是想着去填一个坑,然后又发现很多新的坑,有的时候还能记得最初的目标,大部分时间就在坑里出不来了.乐此不疲, 回去弄好houseprice问题,两个问题同时进行  ; 晚上孔博的课程 ; 上课回来,houseprice  与   集成学习的理论学习

周二:上午:集成学习,模型融合 ;  开会,整理印象笔记里面的东西 ; 晚上继续竞赛, 图像的作业与复习计划;  可视化,pandas文档,

读书计划: 原则是每天除了固定的两大任务,要每天同时读两本书,  

目前阶段:数据天才 与 python sql  后面以后慢慢补的(hadoop  爬虫  shell Excel 分布式  )

周三:adaboost推导过程,与gdbt学习,明天争取完成 ,adaboost推导跳过了,gdbt部分看完了;  下午:继续略读图书,完善kaggle Titanic比赛, 了解推荐系统,准备下一步开始天池的比赛

晚上继续下午工作,争取将准确率提升到80%,结束这个部分

周四:上午:bagging 与 rf  集成学习应该告一段落, 加上模型融合等补充; Titanic竞赛今天结束,参考所有资料列出后面可以优化的方法并实现;  晚上算法第一二章复习,结合算法导论与算法第四版; 额外学习sql命令,sklearn Document

周五:上午: 集成学习类算法落地,sklearn实现的细节, 各个参数的意义,如何调参,如何应用,在何等情况下会好用,考虑单个模型调参 与  ; 下午:特征工程,依据两个帖子整理数据的特征, 多个模型融合的问题来提高准确率; 

周末:周六上:  回顾笔记 以前写到的各种算法的补充和拓展纲要,复习记忆   ,整理浏览器书签,印象笔记   

周日下:清理标签,继续周六工作,给出下周的计划纲要,数字图像处理的作业

第三周:LSTM应用,   数据挖掘  MLP CNN RNN LSTM 公式推导

11月13号 总结RNN LSTM

11月14号; 下一阶段  ICA,流行学习,LSTM论文  晚上:数据挖掘竞赛与题目,书籍

11月15号:上午算法ICA, LSTM论文 ;  下午:数据挖掘竞赛 晚上:流型学习? 

11月16号:上午ICA结束,了解流行学习,下午折腾竞赛

11月17号:上午:集合学习     ;下午竞赛

周末:比赛,集成学习,算法作业

第二周:     ppca,ica,因子模型,自编码机  CNN,RNN总结  周末ppt; 流型学习

11月6号: 回顾pPCA 然后 因子分析模型, PPCA,ICA 串联  ; 自编码机开头 ;   晚上算法

11月7号:自编码机  算法回顾总结;

11月8号:上午:自编码器 原理学习,笔记总结,分类算法优化  ; 晚上动态规划  ; 下午 MLP,CNN rnn总结  ppt ;  

11月9号:上午CNN,ppt总结   ;  竞赛  ;  概率图 深度生成模型 思路总结

第一周:  高斯判别分析 和 高斯混合模型与EM   最小平方法和逻辑回归  到多分类推广

10月30号 :PCA推导完成,ICA 学习与推导; 深度学习 与概率图的概述)(写了一半);写天池大数据的报告(还没开始)   ; 

10月31号: PCA应用  SVD   线性代数回头补充(二次型,对角化等)  ICA   LDA  流型学习  自编码机;   梳理回归与分类 ;  花时间看看那篇crcv

11月1号:  LDA ICA 继续;  了解自编码机;  RNN LSTM 知识总结;  

11月4号: 线性代数   自编码机 ;

11月5号: 下午:高斯混合,高斯判别,EM,ppca求解    ;     晚上前:算法课补充; 晚上后:比赛   ;   看论文

10月份

10月23号这一周,,

 

周一 。kaggle Fisher开始做,预计这一周; 深度学习继续学习;机器学习方面:概率图;连续潜在变量,PCA;AdaBoost,GBDT,随机森林; 学习下Keras,看懂kaggle demo;

周二。开会

周三。 上午,特种工程,降维;晚上网络工程;

周四。点1:集成学习方法;点2:降维之 PCA、t-SNE 和自编码器,点3:概率图理论; (理论基础,一个点一个点的来攻破)

晚上,张志华的机器学习;机器学习应用工程;

 斯坦福CS231n Spring 2017开放全部课程视频(分享自知乎网)https://zhuanlan.zhihu.com/p/28488268? 
 深入浅出:GAN原理与应用入门介绍(分享自知乎网)https://zhuanlan.zhihu.com/p/28731033?utm_source=qq&utm_medium=social

周五。集成学习已看完,boost与bagging 进一步加深了了解,但是还是不能说懂;

周末。周日,

1.总结深度学习各个技术的应用,PCA,ICA,自编码机学习

2.推荐系统学习

3.天池大数据查找资料

4.爬虫???

10月16号这一周

CV 方面深入学习?

http://blog.csdn.net/v_july_v/article/details/52810219

http://blog.csdn.net/v_july_v/article/details/71598551

周一:上午:CNN ,RNN,LSTM 总结;结合论文和书;   下午:重点放在应用与必须的数据科学理论;1.最优化(线搜索方面有些一知半懂,没去听课,感觉压力很大);试试kaggle 与  其他学习的路线; 信号与系统,数字信号处理的学习;

周二:CNN总结,kaggle图像的竞赛;   下午学习算法;晚上:张志华机器学习导论+信号与系统

周三:CNN论文,kaggle开始做,

10月9号这一周

国庆结束,师兄回归,学期正式开始

7.8号周末在实验室,准备一下,开始新的一周 1.TensorFlow CNN 原理与实现 2.上周课程总结和梳理   3.浏览器收藏梳理

周一:上午 : LeetCode,论文阅读,深度学习RNN 【tensorflow 的可视化,tensorflow的加速】 深度学习如何学习,如何应用,有什么好的开源项目 中午:blog  下午:几个点 (SVM数学推导  求最优解 拉格朗日 KTT,logistic 极大似然推导),深度学习RNN  晚上 PR,贝叶斯

周二:上午:RNN。lstm应用实现  读论文。  下午:传统深度学习最后一部分,解决昨天留下的问题  + 卷积网络在于图像等领域的应用, RNN LSTM在于NLP领域的应用,上午没有时间读论文,下午读昨天的论文

9月份

最后一段时间,1.TensorFlow 与深度学习 进度要快点  2.了解关于脑电情绪识别在时序信号,深度学习等方面的应用

 

9月25这一周

1.ng深度学习课程 加快进度,尽量保证两天一周的课程,一天学习,一天做作业

2.TensorFlow 两天一章

3.论文,每天保证有时间读论文,总结

 周一,1/5 深度学习完结     TensorFlow 卷积前面内容完结    晚上机器学习,计划下一阶段如何学习   下午做好论文计划

周二,拟制定了完善的计划和时间表,希望以后能够比较严格的按照这个执行,英语流利说与单词记忆;上午找论文,读论文;微专业课程;mnist手写字体库的继续学习;下午的编程实践,制定目标;确定这周的kaggle题目

周三,单词继续,上午读论文,带着书去上课,TensorFlow 卷积网络,深度学习;下午实现mnist;完成二.1课程作业;晚上。上课

周四,上午两小时论文,ang课程,下午优化mnist,卷积网络, 准备kaggle和学习语言的事情,

周五,昨天的事情都没能做,今天继续昨天的事情,计划下以后的路线问题;

路线:下面一个月以深度学习为主,包括cnn,rnn等网络,基本能够应用;传统机器学习方面放缓,认真听课,找出自己以后应该加强的点;

PS: hadoop spark 等工具;计算机基础知识;算法数据结构Leetcode;机器学习理论基础;机器学习项目实践;

周日10月1:今天没有出去玩,留在了实验室,心中还是有很多的迷茫。今天是周日,用来把前面这一周没有完成的都弄完吧。

面试题一些例子:

  • 用Map Reduce implement矩阵乘法
  • NLP相关的encoding问题 (CBOW vs Skipgram)
  • 不同的activation function的pros/cons
  • Gradient Boosting 相关问题
  • Random Forest 相关问题
  • SVM的Gaussian Kernel 的 dimension
  • 用Regex分析文本
  • 如何用python/R 读取JSON, 并且洗数据
  • 用C++ implement Monte Carlo
  • coding: 用DFS走迷宫
    • 用过哪些DL的library呀?
    • 现在的DL 的state of art model有哪些呀?
    • 如果如理diminishing gradient的问题呀?
    • 如果同时处理文本文档+图片呀?
    • 如果防止overfitting呀?
    • 如何pre-train model呀?
    • 能否自己在服务器上用distributed computing部署一个现有的model 呀?
    面试中遇到的机器学习算法主要有线性回归、朴素贝叶斯、决策树、GDBT、随机森林、Adaboost、逻辑回归(和Softmax)、SVM、神经网络和卷积神经网络。遇到很多次让写逻辑回归的极大似然估计的推导。SVM会问思想,我SVM掌握的太少答的不好。神经网络会问随机梯度下降和反向传播,要写出式子来的。卷积神经网络就遇到过一次,当时不知道后来上网学习了一下挺有意思的。
    损失函数、过拟合、算法的优缺点是经常问到的点,另外遇到的其他问题有这么几个:机器学习算法中哪些是回归算法哪些是分类的。他们的产品要做用户流失预测须要提取哪些特征的。其他我还遇到过倒排索引、推荐算法之类的问题。
posted @ 2017-11-24 10:21  BigJelly  阅读(400)  评论(0编辑  收藏  举报