4月8日-4月14日
2012-4-8
37、研究拼写检测器
http://blog.youxu.info/spell-correct.html
http://blog.csdn.net/cai0538/article/details/7438975
37-1 集合类型set,集合中没有重复元素
37-2 列表/列表解析
37-3 re.findall()
37-4 在python中使用lambda来创建匿名函数
http://woodpecker.org.cn/diveintopython/power_of_introspection/lambda_functions.html
37-5 短路表达式
37-6 映射类型的内建方法:dict.items()
37-7字符串类型内建方法:string.split(str=””,num=string.count(str))
37-8生成器表达式
Core python programming-chapter 8-8.13 生成器表达式
37-8 迭代器
37-9 max与reduce函数
http://blog.csdn.net/cai0538/article/details/7438812
2012-4-9
37-10 file.read(size=-1) 从文件中读取size个字节,当未给定size或给定负值时,读取剩余的所有字节,然后作为字符串返回
38 读平凡而又神奇的贝叶斯方法
http://www.cnblogs.com/leivo/archive/2012/03/26/2417312.html
38-1 最大似然方法
38-2 bottom-up 自底向上 selective bottom-up[计] 自底向上选择
Narrow down
Top-down
38-3 奥卡姆剃刀
38-4 beta分布
38-5 最小二乘方法
38-5 联合概率
38-6 数据稀疏问题
38-7 Analysis by Synthesis (通过合成来分析)
38-8 EM (Expectation-Maximazation)算法
38-9 条件独立假设
38-10 朴素贝叶斯的效果能够等价于非朴素贝叶斯的充要条件
这个解释的核心就是:有些独立假设在各个分类之间的分布都是均匀的所以对于似然的相对大小 不产生影响;即便不是如此,也有很大的可能性各个独立假设所产生的消极影响或积极影响互相抵消,最终导致结果受到的影响不大。
38-11 隐马可夫模型(HMM)
39 学习python核心编程的第七章----映射和集合类型
39-1 映射类型:字典
39-1-1 如何创建字典和给字典赋值
39-1-2 如何访问字典中的值
39-1-3 如何更新字典
39-1-4 如何删除字典元素和字典
2012-4-10
40 学习python核心编程的第七章----映射和集合类型
40-1 映射类型操作符
40-1-1 标准类型操作符
40-1-2 映射类型操作符
40-2 映射类型的内建函数和工厂函数
40-2-1 标准类型函数【type()、str()和cmp()】
40-2-2 映射类型相关的函数
40-3 映射类型内建方法
40-4 字典的键
40-4-1 不允许一个键对应多个值
40-4-2 键必须是可哈希的
40-5 集合类型
40-5-1 如何创建集合类型和给集合赋值
40-5-2 如何访问集合中的值
40-5-3 如何更新集合
40-5-4 如何删除集合中的成员和集合
40-6 集合类型操作符
40-6-1 标准类型操作符(所有的集合类型)
40-6-2 集合类型操作符(所有的集合类型)
40-6-3 集合类型操作符(仅适用于可变集合)
40-7 内建函数
40-7-1 标准类型函数
40-7-2 集合类型工厂函数
40-8 集合类型内建方法
40-9 集合类型总结表
41 写论文的2.3.2算法参数的选择及实验分析
41-1 读论文《SVM分类核函数及参数选择比较》
41-1-1结构风险最小化原理、线性约束的凸二次规划问题
42 读libsvm中python 文件夹下的readme
42-1Table of Contents
=================
- Introduction
- Installation
- Quick Start
- Design Description
- Data Structures
- Utility Functions
- Additional Information
42-2 ctypes是python的一个外部库,提供和C语言兼容的数据类型,可以很方便地调用C编译的静态库和动态库中的函数。
from ctypes import *
from ctypes.util import find_library
42-3 from svm import *
把指定模块svm中的所有名称导入到当前名称空间里
43 读数学之美系列二十一 - 布隆过滤器(Bloom Filter)
http://blog.csdn.net/cai0538/article/details/7447277
43-1 哈希表的存储效率一般只有 50%
43-2 信息指纹
43-3 一个 email 地址需要占用十六个字节。一亿个地址大约要 1.6GB, 即十六亿字节的内存
http://blog.csdn.net/cai0538/article/details/7447305
44-1 MersenneTwister 算法
45 读一个python实现的贝叶斯的例子(明天继续)
46 基于python的中文分词的实现及应用(明天继续)
http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html
2012-4-12
47 读集体智慧编程-第七章 决策树建模
47-1 基尼不纯度
47-2 熵、信息增益
47-3 instance方法
47-4 python编码中特别注意由于缩进带来的运行结果超出预期
48 读集体智慧编程-第四章 搜索与排名
48-1 python中pass的用法
http://www.cppblog.com/momoxiao/archive/2010/08/23/124425.html
48-2 urllib2是一个绑定与python的库,其作用是方便网页的下载,我们要做的全部工作就是提供一个URL
48-3 BeautifulSoup的下载与使用
http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/
49 笔试题
49-1使用define定义一年有多少毫秒
#define secondsOfYear (365*24*60*60*1000)UL
49-2 new和new(std::nothrow)有何区别
http://www.cprogramming.com/tips/tip/cincrement-new-does-not-return-0-on-failure
new在遇到failure时会抛出异常,而new(std::nothrow)会返回0/NULL
49-3 符号链接、硬链接、引用计数
http://blog.csdn.net/cai0538/article/details/7382983
扩展:查看文件引用计数的命令
Lsof or fuser