08 2016 档案
摘要:原文:https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/ Introduction Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上
阅读全文
摘要:【转自:http://www.ibm.com/developerworks/cn/linux/sdk/python/python-5/index.html#N1004E】 我们谈到“文本处理”时,我们通常是指处理的内容。Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三
阅读全文
摘要:作者:金戈戈链接:https://www.zhihu.com/question/30643044/answer/48955833来源:知乎著作权归作者所有,转载请联系作者获得授权。 先说ROC,ROC(receiver operating characteristic curve)是曲线。也就是下图
阅读全文
摘要:作者:张欣链接:https://www.zhihu.com/question/23765351/answer/98897364来源:知乎著作权归作者所有,转载请联系作者获得授权。 softmax 回归(Softmax Regression) 这里解释的很详细,简单总结下:softmax模型是logi
阅读全文
摘要:原文:http://www.shareditor.com/blogshow/?blogId=1 数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得是理解概念,数学不只是上学时用来考试的,也是工作中必不可少的基础知识,实际上有很多有趣的数学门类在学校里学不到,有很
阅读全文
摘要:原文:http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650718717&idx=1&sn=85038d7c906c135120a8e1a2f7e565ad 选自 SVDS 作者: TOM FAWCETT 机器之心编译 参与:孙睿、吴攀、李
阅读全文
摘要:原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49429629 防止过拟合的处理方法 过拟合 我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independe
阅读全文
摘要:原文:http://blog.csdn.net/jthink_/article/details/38903775 1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by
阅读全文
摘要:原文:http://www.jellythink.com/archives/705 TCP是什么? 具体的关于TCP是什么,我不打算详细的说了;当你看到这篇文章时,我想你也知道TCP的概念了,想要更深入的了解TCP的工作,我们就继续。它只是一个超级麻烦的协议,而它又是互联网的基础,也是每个程序员必备
阅读全文
摘要:原文:http://202.197.191.206:8080/06/text/ch06/se04/6_4_1_4.htm
阅读全文
摘要:原文:http://blog.csdn.net/ice110956/article/details/28421807 Python的多线程有两种实现方法: 函数,线程类 1.函数 调用thread模块中的start_new_thread()函数来创建线程,以线程函数的形式告诉线程该做什么 [pyth
阅读全文
摘要:原文:http://52opencourse.com/125/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E
阅读全文
摘要:http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf Loss Function 损失函数可以看做 误差部分(loss term) + 正则化部分(regularization term)
阅读全文
摘要:原文:http://blog.csdn.net/lxdcyh/article/details/4018054 为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“/xe4/xb8/xad/xe6/x96/x87”的形式?为什么会报错“UnicodeEncodeError:
阅读全文
摘要:原文: https://github.com/catalystfrank/Python4DataScience.CH 原文: 原文: https://github.com/catalystfrank/Python4DataScience.CH https://github.com/catalystf
阅读全文
摘要:作者:未某人链接:https://www.zhihu.com/question/24326030/answer/116568697来源:知乎著作权归作者所有,转载请联系作者获得授权。 你知道 zhihu 曾是一家虚假网络广告骗子公司吗?你知道如何通过一张被裁剪过的图片,看到完整图片吗?(美国一位女星
阅读全文
摘要:原文:http://www.cnblogs.com/kaituorensheng/p/3826114.html 阅读目录 1. Python MapReduce 代码 2. 在Hadoop上运行python代码 3. 利用python的迭代器和生成器优化Mapper 和 Reducer代码 4. 参
阅读全文
摘要:下面简单列举几种常用的推荐系统评测指标: 1、准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中
阅读全文
摘要:原文:http://www.jb51.net/article/15714.htm 1. copy.copy 浅拷贝 只拷贝父对象,不会拷贝对象的内部的子对象。2. copy.deepcopy 深拷贝 拷贝对象及其子对象一个很好的例子: import copya = [1, 2, 3, 4, ['a'
阅读全文
摘要:原文:http://pyzh.readthedocs.io/en/latest/the-python-yield-keyword-explained.html 3. (译)Python关键字yield的解释(stackoverflow) 译者: hit9 原文: http://stackoverfl
阅读全文
摘要:原文:http://blog.chinaunix.net/uid-23302288-id-3785105.html awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理,然后输出 awk命令形式:
阅读全文
摘要:原文:http://www.52cs.org/?p=1046 闲聊DNN CTR预估模型 Written by b manongb 作者:Kintocai, 北京大学硕士, 现就职于腾讯。 伦敦大学张伟楠博士在携程深度学习Meetup[1]上分享了Talk《Deep Learning over Mu
阅读全文