Longing for epiphany

     发现学习的过程总是需要一个觉悟的契机,它可能是一堂课,可能是随便看到的一些事情,也可能是一句话。在这个契机到来之前是被动地接受,之后会将这方面的资源都标记成敏感词,在微博、新闻报道、文献中看到了会愿意去看,并且自愿地去搜索各种资源来学习。对我来说,大一大二是英语,大四的时候是社会科学,现在是CS。而且自认为是一个比较后知后觉的人,虽然上学比较早,但顿悟的那种能力比同年龄的人还要小两岁左右。经常是别人对某一些事物已经有了兴趣并开始了研究但我还懵懂无知,只是停留在某些概念的记忆和消化上面。目前挺为自己的专业学习忧心,直到现在也对金融市场没有什么很大的兴趣,不知道是真的慧根不够还是the moment is yet to come.

     论文选题的过程真的很头疼,因为真不知道自己对金融的兴趣在哪里。既然现在看CS比较多,那就研究量化投资吧,但是那些大盘走势、股票预测之类的东西很玄,自己都没有多少信心,而且可能也难以说服别人接受,股市这么捉摸不透而又天天被人议论的事物,好像也不是一个好的研究对象。尽管我想放开想象的空间,但很多时候还是局促于这个工具能实现什么,而不是我想研究什么问题,怎么样来实现。原因一方面说过了,对金融实在没有深入的理解,另一方面对自己的技术也不放心。其实看看以前学长学姐的论文,有一些甚至是综述性的,没有实证,连案例分析都没有。硕士论文只要能在某方面有一点微小的创新应该就够了,可是选个感兴趣的话题总是要顾忌颇多,放不开手脚。没有社科头脑太沮丧了,对股市、对固定收益证券、公司金融方面的东西进行量化,总是觉得很心虚。如果涉及到行为金融就更手足无措了,总觉得有些问题怎么能够这样量化呢,而且实验过程中那么多bias,会是一个可靠的指标吗。虽然对数据分析很有信心,相信一定有很多patterns亟待发现,但真正进行hypothesize和inference的时候总是畏首畏脚,觉得理论不够sound,对社会科学严重缺乏信心。

       Data Science第三周的作业放出来了,正好缓解一下焦虑的心情。

update:

 

  作业第二题在list的赋值上面耽误了很久,如果对一个list对象进行=的赋值如l=b[0]而后又改变它l.extend(b[1]),也会影响到b的值,因此赋值语句要慎重。另有一个发现,关于extend和append的不同,比如l=[1,2,3], l.extend(4)会报错,而l.append(4)不会。

     作业第四题也想了很久,一开始在纠结这样的问题是不是不适合用MR来写,因为key实在不知道选什么,不知道怎么shuffle到reduce里面去。后来想到Python里面dictionary是没有顺序的,所以把两个名字放在dict类型对象里面,但是又出现了unhashable的错误,后来用tuple显示声明了key,终于可以通过了。但感觉这个问题的解决方案还是有点怪,暂时没想到更好的方法。

      最后一题矩阵乘法想了很久还是compromise了,假设已知A, B矩阵的维度来写的,这样才能用key值统一一个cell,但后面点乘还是得判断列数==行数,写的有点复杂,不知道有没有更好的办法。想想看关系数据库算sparse matrix乘积还真是挺方便的,A.col_id=B.row_id作为join的条件,然后group by A.row_id, B.col_id,select sum(A.value*B.value)就行了。

 

 update:

       今天发现还有一个quiz,用JSMapReduce算扑克牌的,网页Python的kernel有点问题(在机器上的python没问题),所以用javascript写的,比较简单。

posted @ 2013-05-18 20:52  Defightender  阅读(141)  评论(0编辑  收藏  举报