文章分类 -  书籍

阅读书籍相关笔记
(转)云计算核心论文
摘要:Google1. nosqldbs-NOSQL Introduction and Overview2. system and method for data distribution(2009)3. System and method for large-scale data processing using an application-independent framework(2010)4. MapReduce: Simplified Data Processing on Large Clusters;5. MapReduce-- a flexible data processing t 阅读全文
posted @ 2013-02-01 17:42 敲代码的耗子 阅读(448) 评论(0) 推荐(0)
数学之美系列二:谈谈中文分词
摘要:数学之美系列二:谈谈中文分词一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。谈谈中文分词-----统计语言模型在中文处理中的一个应用系列一中我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会”,分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是 阅读全文
posted @ 2013-01-06 10:38 敲代码的耗子 阅读(357) 评论(0) 推荐(0)
数学之美系列一:统计语言模型
摘要:数学之美系列一:统计语言模型(Statistical Language Models)在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当 人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 阅读全文
posted @ 2013-01-05 15:07 敲代码的耗子 阅读(211) 评论(0) 推荐(0)
集体智慧编程(第一章 集体智慧导言)
摘要:第一章 集体智慧导言(Introduction to Collective Intelligence) 不得不说,《集体智慧编程》是一本很好地用于SNS入门的书籍,当然对于认识机器学习,了解数据挖掘更是有很大帮助。一直以来都在看英文版(现在也出了中文版的,电子版的都可以从网上下到),感觉理解起来难度不大,语言浅显易懂,有这方面兴趣的可以看看。书中所采用的程序设计语言是Python,想必在数据分析与数据处理领域有研究的同志们对这么语言也不会陌生了吧,这也是我最初选择读这本书的原因。 Why Python? ——Concise(简洁)、Easy to read(易读)、Easily exten.. 阅读全文
posted @ 2013-01-04 21:34 敲代码的耗子 阅读(300) 评论(0) 推荐(0)