《白话大数据与机器学习》读书笔记

1:大数据产业生产流程从数据的生命周期的传导和演变上可以分为这样几个部分:数据收集、数据存储、数据建模、数据分析、数据变现

3:大数据人才的一将难求不奇怪:(1)大数据产业发展迅速。(2)大数据人才培养成本居高不下。

3:大数据人才大致可以分为这三个方向:(1)偏重基建与架构的”大数据架构“方向。(2)偏重建模与分析的”大数据分析“方向。(3)偏重应用实现的”大数据开发“方向。

 

195:通过某些手段对用户做甄别,把他们分成彼此相同或不同的人群或个体,进而区别化提供服务和进行观察分析——这通常是做用户画像的核心目的所在。

 

 

206:推荐系统作为现在众多电商系统、内容分发系统等网站的必要子系统,越来越受到运营者的重视。推荐系统核心要解决的问题是提高转化率。

216:我们期望的不是一个高度收敛的推荐算法,而是商品种类要丰富,也就是商品的覆盖率要高,要保证它的多样性

216:归一化:对每一行的相似度值和当前行的最大值计算一个比值,把这个比值当作新的结果放在矩阵里。 好处:所有原来相似度看上去比较低的值都被拉高了,缩小了差距。

289:指标的含义、指标的数量设置要合理,要让这个指标的维护和解读的成本与它的作用和收益相称。

292:在做互联网产品时千万不要犯经验主义的错误,经验永远是局限的,唯一不变的东西就是变化本身。

293:灰度发布:用策略文件进行控制,可以仅对全网环境中的部分用户——可以是5%,可以是10%,也可以再多一些(但是这些数量级比封测和体服的数量级还是大多了)进行更新,看看他们的反应。

293:不要小看这个简单的东西,用得好会让产品每次都能顺利爬台阶,一步一步走向正确的方向,这比求助任何行业专家都要成本低而且反馈灵敏。

295:一切工作尽量目标化和数字化。    能用图的不要用表格,能用表格的不要用条目,能用条目的不要用段落。

 

posted @ 2017-10-23 12:38  亲爱的牛顿先生  阅读(541)  评论(0编辑  收藏  举报