京东实习记录
6.2
从北苑赶到亦庄去报到,早上签实习协议、保密协议,中午吃了一顿,下午领电脑,回到北辰工作地点已经5:00了,找到了工位,一个大哥给我演示了一下身份证识别,让我看看Google C++编程规范,还有TensorFlow,玩了一会儿下班了。
6.5
正式上班第一天,有了ERP,大哥在git上给我看了一个项目,和我说了接下来要做什么,然后发了好多论文、代码给我。看了一天深度学习基础入门......
6.6
连上了内网,下载了一个项目,linux一点都不会操作,正在慢慢学,项目代码看不懂......一脸懵逼。
6.7
看了一个算法的论文。
6.8
看了论文算法的代码实现。
6.9
研究scons编译。
6.10
似乎理解了scons编译,提取了算法部分的代码,用scons编译成功,但仍然存在小问题。除此之外也学了一些linux基本操作。
6.11
了解了一下CNN(卷积神经网络)。
6.12
已经把算法merge到项目中,代码还在继续看。
6.13
用新算法测试了1000多组数据,发现跑的结果并不是特别准确,具体BUG还在调试。重新再看一遍算法论文。
6.14
早上把算法论文重新看了一遍,对算法有更深的理解,果然书读百遍其义自见。然后调试算法代码,发现了BUG的根源。代码中还有一些复杂度过高的部分,明天与leader探讨后再做定夺。
6.15
改正bug,运行结果正确。接下来还要学习内存池优化,自己写一个内存池,项目中后续还有算法可以进行优化。
6.16
上午把算法中一个无意义的操作删除了,节省了几秒钟,但随着数据量的增大,节省的时间会越来越多。下午将另一位同事研发的部分merge进来,但发现好多BUG,调了几个小时,明天继续改。
6.17
上午整理了一遍程序的框架结构,下午merge成功,但是测试发现她调教的新模型,跑的又慢又不准......
6.18
今天是618,去吃吃喝喝了一天,真好玩!
6.19
发现之前跑出来的结果不理想是因为有一个函数操作的不合理,修改之后,将置信度调整至0.5,效果还比较满意。正在进行后续算法的时间复杂度和精准度优化。
6.20
优化某部分算法,这个问题类似于一个open problem,很难得到完美的解答,case太多了,经过一天的修改,效果比原先的好。
6.21
继续优化昨天的算法(算法2),基本流程确定,但是有几个超参数很难调,总体效果已经大幅度提升了,明天要优化另一个算法(算法1)。
6.22
发现了算法1很多可优化之处,已经修改了部分,总体测试发现1秒钟可以处理1.7张图片,整体效率和准确度比之前的好很多了,然后要review代码,写一个测试覆盖率的代码去测覆盖率,再review一下就可以准备上线新版本了,然后要开始看另一篇论文,学新算法。
6.23
修改了一下算法1,经过和leader的交流,都觉得用算法2是无法完美的解决这个问题的,需要另寻方法,暂时就这样了,下午写了一个测试的代码,但是读取文件的过程出了点问题,趁此机会也知道一些以前不知道的知识,明天双休日再去改造一下,希望早日上线,实习也算做出了一点小贡献。
6.24
写了两个小脚本,一个测准确率,一个割图。
6.25
调整了一下算法2后续策略,改变了一下测准确率的方法,一半图片的效果还是很满意的,另一半有点不尽人意,明天和大哥们交流。
6.26
进行好多测试,模型用了好几个,最终效果比昨天好,还发现了算法1里面一个问题,明天和大哥们交流。
6.27
上午总共测了5个模型,最终选了一个,下午居然来了个业务......然后大哥让我测测怎么样,测完后发现算法2有点小漏洞,之前的1000组测试数据中并没有发现,打了个补丁上去,测完之后想出了一个准确率较高的解决方法,明天接着弄。
6.28
上午写昨天未解决的问题,最终还是换了一个模型,下午写了一个测准确率和覆盖率的小程序,将结果反馈给了需求方。傍晚时候开始去新的机器上测整个项目的运行速度,可能准备上线了。
6.29
上午搞了一下新的机器的一些库,然后把工程和数据拉倒新的机器上,然后进行测试,下午改了一下程序,顺应需求方的要求,下班之前把数据发给了他们,晚上电话讲解了一下数据。
6.30
开始新项目了......开始想策略,下午有点划水。
7.1
想了一天的策略,傍晚时分想出了一个私以为较为优秀的方法,明天准备操作一波。
7.2
操作了一下想法,有一半的图效果不错,另一半不尽人意。
7.3
接着进行操作,与大哥们交流后发现有一个可以改进的东西,改进之后效果爆表!但还有瑕疵。
7.4
接着进行操作,改进了一些瑕疵,更难的事情在后面!今天发现之前改进过的东西已经上线了!
7.5
接着进行操作,并且尝试进行了下一个步骤的操作,下午帮另一个部门下载了一些图片。
7.6
操作下一个步骤,并不是很完美,后续的操作还需要进行很大的改进。哎,如果每一步下来都要缺失一些,到了最后又正真能检测出多少呢?所以每一步都要尽量做到极致。
7.7
加了点后续操作,稍微改了一下,还发现了一个优化的东西。因为感冒难受,所以上班的时候睡觉睡了好久。
7.8
感冒,修养了一天。
7.9
感冒,还是修养了一天,逐渐康复中。
7.10
对后续操作进行了一些改进,还将之前写的算法改写成了两个class。
7.11
将两个class,merge到了工程中,model换了一个,跑了一下整体效果,下午开始构思版面分析。
7.12
上午写版面分析,下午继续写BMFX,下午还去和别的部门开了个远程电话会议,晚上将BMFX改写成class,并将输出格式改成json格式。
7.13
将BMFX class合并到了工程中,json格式重新改了一下,变规范了,又改了一些其余.cpp文件,目前可以在手机端拍照,在服务器上获得识别结果,还有算法上的优化要进行。
7.14
上午把TSBH部分改了,JCZX也改了,下午还改了PZ,下午修了个bug,以及做了好多手机端拍照测试,手机端能显示结果了。
7.15
TSBH部分大改了一下,效果比原先好,还在继续优化中。今天还有意外收获,哈哈哈。
7.16
TSBH又加了新的规则,BMFX也改了。
7.17
今天开了个会,我了个去,我终于见识到什么叫用户需求了!!!接下来一礼拜有的干了。
7.18
昨天进行了各种方法的探寻,效果不太好。
7.19
今天写了个暴力,效率贼低,明天进行优化!!!!!
7.20
今天大哥和我说了一个思路,但时间复杂度极高,5小时跑了一组数据。。。
7.21
早上大哥又给我提供了思路,但从理论上分析效果应该就不会特别好,尝试了另一个项目,有所进展。能成功识别部分情况。
7.22
周末加班,进行优化!!!!!!
7.23
周末加班,进行优化!!!!!!
7.24
今天开会,接下来潜心搞各种发票!
7.25
今天干了点杂活,把新方法merge到了工程中。
7.26
早上把新想法扔进了工程,发现效果有所提升。下午写了一下测试程序。
7.27
早上发现全对率较低的原因是由于标注出错,下午code review,重新整理了一下代码,修了一个BUG,调整了一些参数。
7.28
今天进行了taxi的code review,然后线上发布了两个server。
7.29
将新的操作merge到taxi中,改了一下date的版面分析。
7.30
今天休息一天。
7.31
早上发现2个BUG,下午到晚上测了一下taxi的准确率。
8.1
今天搞了一波测试,找出了错误的原因。
8.2
今天上午改了一下某部分的策略,下午改了一下BMFX,以及makechain里面的一些东西,效果提升啦。
8.3
今天挑了600多张图,拿去标注用,学习CTC。
8.4
学习CTC,发现BMFX有bug,改了一下。
8.5
双休日,youtube上看机器学习入门视频。
8.6
双休日,youtube上看机器学习入门视频。
8.7
今天星期一,上午搞了一下二维码,下午换上新模型,发现一些新问题,搞了很多事情。。
8.8 - 8.12
搞了一波事情,金额又操作了一波,license操作了一波。