摘要:
机器学习中涉及到几个关于错误的概念: precision:(精确度) precision =TP/(TP+FP) recall:(召回率) recall =TP/(TP+FN) accuracy:(准确度) accuracy =(TP+TN)/(TP+FP+TN+FN) F... 阅读全文
摘要:
想使用一个每日事情提醒工作,功能大概是列出每天要做的事情,看别人推荐有: URNotes; Office Outlook自带的约会功能,可以设置自动循环、定时提醒、按要求延期、会议邀请等; FreeNote,只是在桌面上有一个点子便签一样的东西提醒你要做的事情,那最好的莫过于 阅读全文
摘要:
Octave是一门比较 简单、原始 的语言。从某方面来说和 shell 语言类似,只不过,shell语言主要用于 操作系统管理方面,而Octave侧重于科学计算方面。 语言本身没有提供或者说很简单的 代码 组织、管理、库。如果要使用别人实现的功能,或者说别人实现的库,只能通过把别人写好的oct... 阅读全文
摘要:
相关书籍: 《Lucene实战》第二版; 《搜索引擎基础教程》; 《Lucene搜索引擎开发进阶实战》;(我现在看得书)学习注意要点: 不要盲目从代码入手,而要先掌握基础概念知识和原理; 创建索引 和 搜索索引 是两个过程,先有第一步才有第二步; 开发模式可以有Lucene+Java,还... 阅读全文
摘要:
Lucene是一个工具库,是一个高性能、可扩展的信息检索开源库,它提供了一个简单应用接口,用于全文索引和搜索。优点:索引文件格式独立于应用平台,不同平台能够共享索引文件;具有优秀的面向对象的系统架构;默认实现了一套强大的查询引擎,包括模糊查询、分组查询等适用范围:首先是,文本的检索;其次是,网站信息... 阅读全文
摘要:
今天在阅读<Lucene搜索引擎开发进阶实战,第一章,网络爬虫策略,里面提到了网页去重,网页内容重复分为几类,完全重复,仅内容重复,仅布局重复,部分重复.针对网页去重,有很多算法支撑,Shingling算法;I-Match算法;Google专用的SimHash算法(公认最优秀);SpotSig算法还... 阅读全文