摘要: 编程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是python(numpy+scipy+matplotlib)和C/C++,这样组合既可搞研究,也可搞商业开发,易用性不比matlab差,功能组合更为强大,个人认为,当然R和java也不错.1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件)http://mloss.org2 偶尔找到的机器学习资源网:(也非常全,1和2基本收录了所有ML的经典开源软件了)http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Learni 阅读全文
posted @ 2013-03-24 20:12 盖文 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘能做以下七种不同事情(分析方法):数据挖掘能做以下七种不同事情· 分类 (Classification)· 估计(Estimation)· 预测(Prediction)· 相关性分组或关联规则(Affinity grouping or association rules)· 聚类(Clustering)· 描述和可视化(Description and Visualization)· 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)经典算法1. C4.5:是机器学习算法中的一种分类决策树算法,其核心算法 阅读全文
posted @ 2013-03-24 20:10 盖文 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 四大系统(1)下载系统(2)分析系统(3)索引系统(4)查询(检索)系统每个模块都从互联网理论,海量数据和高效算法上如何让搜索引擎查得全,查得快,查得准,查得稳。看完后对搜索引擎在理论和实际有更全面的认识。 阅读全文
posted @ 2013-03-24 20:03 盖文 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 数据仓库的体系结构Oracle 提供的数据仓库工具•Oracle数据库•SQL *Loader工具•Oracle Warehouse Builder (OWB) 阅读全文
posted @ 2013-03-24 19:52 盖文 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 如何指定GCC的默认头文件路径在交叉编译的时候我们需要用到其他的库,在config时候可以通过“-I”来指定头文件目录,但是每次都需要设置的话难免有些麻烦,找到一个简单的方法。看下文的红色部分。有大量的环境变量可供设置以影响 GCC 编译程序的方式。利用这些变量的控制也可使用合适的命令行选项。一些环境变量设置在目录名列表中。这些名字和 PATH 环境变量使用的格式相同。特殊字符 PATH_SEPARATOR (安装编译程序的时候定义)用在目录名之间。在 UNIX 系统中,分隔符是冒号,而 Windows 系统中为分号。C_INCLUDE_PATH编译 C 程序时使用该环境变量。该环境变量指定一 阅读全文
posted @ 2013-03-24 19:23 盖文 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 在C++中,库的地位是非常高的。C++之父 Bjarne Stroustrup先生多次表示了设计库来扩充功能要好过设计更多的语法的言论。现实中,C++的库门类繁多,解决的问题也是极其广泛,库从轻量级到重量级的都有。不少都是让人眼界大开,亦或是望而生叹的思维杰作。由于库的数量非常庞大,而且限于笔者水平,其中很多并不了解。所以文中所提的一些库都是比较著名的大型库。一、C++标准库已被实践证明为有工业级别强度的佳作。1、Dinkumware C++ Library 参考站点:http://www.dinkumware.com/P.J. Plauger编写的高品质的标准库。P.J. Plauger博士 阅读全文
posted @ 2013-03-24 19:18 盖文 阅读(153) 评论(0) 推荐(0) 编辑
摘要: nutch抓取数据后,生成五个文件夹:crawldb、index、indexs、linkdb和segments,这五个文件夹具体存放什么内容,前面文章里有解释,每个文件夹下,最后就是data和index文件看了一下将segment目录导出文本数据的源码SegmentReader.java,发现要用到MapFile类,而MapFile类中又要用到SequenceFileMapFile.java类是创建data和index的类,它主要是用SequenceFile.java中的内部类和方法进行读写操作,所以理解SequenceFile类是很重要的SequeceFile是Hadoop API提供的一种 阅读全文
posted @ 2013-03-24 19:06 盖文 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 并发编程网 - ifeve.com 阅读全文
posted @ 2013-03-24 18:44 盖文 阅读(109) 评论(0) 推荐(0) 编辑
摘要: Mechanical Sympathy 这个短语非常有意思,直译过来是Mechanical是机械的意思,Sympathy是同情的意思,在这里表示硬件的运作方式,以及与硬件运行方式协同的软件编程。。。下面是文章正文:CPU 缓存刷新的谬误(CPU Cache Flushing Fallacy) 即使是有丰富经验的技术人员,我也经常听到谈论某些操作会导致CPU缓存“刷新”。 这似乎可以说是一个对CPU缓存的工作原理,以及CPU缓存子系统和内核如何进行交互很常见的谬误。 在这篇文章中,我将试图解释CPU缓存履行的核心功能,内核如何执行我们的程序,以及它们如何进行交互。 作为一个具体的例子,我将深.. 阅读全文
posted @ 2013-03-24 17:43 盖文 阅读(950) 评论(0) 推荐(0) 编辑
摘要: 看了一些所谓大公司的JAVA面试问题,发现对于JAVA集合类的使用都比较看重似的,而自己在这方面还真的是所真甚少,抽空也学习学习吧。java.util包中就包含了一系列重要的集合类,而对于集合类,主要需要掌握的就是它的内部结构,以及遍历集合的迭代模式。接口:Collection所有集合类的根类型,主要的一个接口方法:boolean add(Ojbect c)虽返回的是boolean,但不是表示添加成功与否,因为Collection规定:一个集合拒绝添加这个元素,无论什么原因,都必须抛出异常,这个返回值表示的意义是add()执行后,集合的内容是否改了(就是元素有无数量、位置等变化)。类似的add 阅读全文
posted @ 2013-03-23 21:38 盖文 阅读(165) 评论(0) 推荐(0) 编辑