2013年10月5日

[收藏]统计中的置信和惩罚

摘要: http://www.zhizhihu.com/html/y2013/4151.html如何对样本数目加惩罚来保证置信,样本数目很少的时候,统计结果往往不置信。看了阮一峰老师的博客和《How Not To Sort By Average Rating》,还有论文《How to Count Thumb-Ups and Thumb-Downs》,还有wiki上的各种置信区间《confidence interval》,了解了一些方法,例如:一、威尔逊置信区间(Score = Lower bound of Wilson score confidence interval for a Bernoulli 阅读全文

posted @ 2013-10-05 22:09 berkeleysong 阅读(1651) 评论(0) 推荐(0) 编辑

2013年10月2日

谷歌如何从网络的大海里捞到针

摘要: 来源 :http://www.mysanco.com/index.php?class=wenku&action=wenku_item&id=44想象一个含有250亿份文件,却没有集中管理机构和馆员的图书馆,而且任何人都可以在任何时间添加新的文件而不需要通知其他人。一方面你可以确定,这庞大的文件堆中有一份文件含有对你至关重要的信息,而另一方面,你又像我们中的大多数人那样没有耐心,想要在几秒钟之内就找到这条信息。你有什么办法呢?摆在你面前的这个难题看起来似乎无法解决。而这个文件堆跟万维网(World Wide Web)其实相差无几,后者就是一个超大的、高度混乱的以各种形式存放的文件 阅读全文

posted @ 2013-10-02 14:37 berkeleysong 阅读(164) 评论(0) 推荐(0) 编辑

2013年9月5日

推荐系统公开课--学习笔记(1)

摘要: 最近一直对推荐系统感兴趣,通过好友的途径了解到了9.3日明尼苏达大学开设的推荐系统导论的公开课,决定在web mining and big data的学习过程中,同时对该课程进行学习,将自己学习的感想与印象深刻的东西,而非细节与知识点展示给大家。希望大家在学习该课程的时候能有所帮助。我没有找到最合适与该课程的书籍,但是推荐教材:Recommender Systems An Introduction第一节课主要分为以下几块: 1.编程环境的搭建 JAVA + APACHE MAVEN + LENSKIT + IDE or editor JAVA 和 IDE 不用说了,主要说说中间的两个软件:.. 阅读全文

posted @ 2013-09-05 20:29 berkeleysong 阅读(584) 评论(0) 推荐(0) 编辑

gcc & gdb & make 定义与区别

摘要: GCC 通常所说的GCC是GUN Compiler Collection的简称,除了编译程序之外,它还含其他相关工具,所以它能把易于人类使用的高级语言编写的源代码构建成计算机能够直接执行的二进制代码。GCC是Linux平台下最常用的编译程序,它是Linux平台编译器的事实标准。同时,在Linux平台下的嵌入式开发领域,GCC也是用得最普遍的一种编译器. 对于C语言文件"hello.c"(数据hello world的小程序), 要使用gcc 编译该文件,我们使用下面的命令: $gcc -Wall hello.c -o hello 其表示将文件"hello.c&quo 阅读全文

posted @ 2013-09-05 19:56 berkeleysong 阅读(877) 评论(0) 推荐(0) 编辑

2013年9月2日

C++ string

摘要: 标准C++中的string类的用法总结http://www.cnblogs.com/xFreedom/archive/2011/05/16/2048037.html相信使用过MFC编程的朋友对CString这个类的印象应该非常深刻吧?的确,MFC中的CString类使用起来真的非常的方便好用。但是如果离开了MFC框架,还有没有这样使用起来非常方便的类呢?答案是肯定的。也许有人会说,即使不用MFC框架,也可以想办法使用MFC中的API,具体的操作方法在本文最后给出操作方法。其实,可能很多人很可能会忽略掉标准C++中string类的使用。标准C++中提供的string类得功能也是非常强大的,一般都 阅读全文

posted @ 2013-09-02 17:49 berkeleysong 阅读(118) 评论(0) 推荐(0) 编辑

2013年9月1日

C++ string用法

摘要: http://zhidao.baidu.com/question/41548216.html?si=1之所以抛弃char*的字符串而选用C++标准程序库中的string类,是因为他和前者比较起来,不必 担心内存是否足够、字符串长度等等,而且作为一个类出现,他集成的操作函数足以完成我们大多数情况下(甚至是100%)的需要。我们可以用 = 进行赋值操作,== 进行比较,+ 做串联(是不是很简单?)。我们尽可以把它看成是C++的基本数据类型。首先,为了在我们的程序中使用string类型,我们必须包含头文件 。如下: #include //注意这里不是string.h string.h是... 阅读全文

posted @ 2013-09-01 17:49 berkeleysong 阅读(145) 评论(0) 推荐(0) 编辑

Web Mining and Big Data 公开课学习笔记 ---lecture1

摘要: 1.1 LOOKFinding "stuff" on the web or computer or room or hidden in dataFinding document -> seearch engine with queryLook 在本节中主要指文本检索,课程介绍了一个简单的文本检索体系与排序方法。1.2 how to create a text index 对所有的document 进行遍历,按照最笨的方法新增单词,或者增加单词的链接,最后可以形成Text index1.3 complexity of index creation 主要对之前1.2节介绍 阅读全文

posted @ 2013-09-01 12:06 berkeleysong 阅读(206) 评论(0) 推荐(0) 编辑

Web Mining and Big Data 公开课学习笔记 ---lecture0

摘要: 0.1 课程主要内容:Big data technologies , Machine Learning and AI0.6 OUTLINE: predict the future using AI and big data Look : search Listen:Mechine Learning Learn:Information Extraction Connect: Reasoning Predict:Data Mining Correct:Optimization 阅读全文

posted @ 2013-09-01 11:40 berkeleysong 阅读(193) 评论(0) 推荐(0) 编辑

2013年8月30日

Cracking the Coding Interview 题目分析笔记—— Array and String

摘要: 1.Determine if a string has all unique characters learn: 为了减少空间利用率,其比较优秀的算法一般都适用位操作 返回值的命名方法,我们需要学习 String 类型作为输入参数,怎么样写比较节省空间与时间,特别是比较长且需要频繁调用的时候 输入为空的时候,不要忘记写不同输入情况下 需要考虑情况的列表 注意String 中的数据不一定是Ascii2.Reverse a C-style String learn: 对于输入的参数要判别是否有输入,用不同的返回值判断不同的执行效果 ... 阅读全文

posted @ 2013-08-30 15:36 berkeleysong 阅读(200) 评论(0) 推荐(0) 编辑

2013年8月25日

MapReduce模式、算法和用例 中文翻译

摘要: 来源:http://juliashine.iteye.com/blog/1708967本文译自Mapreduce Patterns, Algorithms, and Use Cases在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sorting。如下图所示。基本MapReduce模式计数与求和问题陈述:有许多文档,每个文档都有一些字段组成。需要计算出每个字段在所有文档中的 阅读全文

posted @ 2013-08-25 10:49 berkeleysong 阅读(191) 评论(0) 推荐(0) 编辑

导航