摘要:
1.在java中字符串只以Unicode一种形式存在(不选择任何特定的编码,直接使用他们在字符集中的编号,这是统一的唯一的方法) 2.在java中,是指在JVM中,在内存中,在你的代码里声明的每个char,String类型的变量中。 JVM的这种约定是的一个字符分为两个部分:JVM内部和OS文件系统 阅读全文
摘要:
一、什么是算法 1.算法:是一系列解决问题的明确指令,也就是说对于符合一定规范的输入,能够在有限的时间内获得要求的输出 2.算法要点: (1)算法的每个步骤都必须没有歧义,不能有半点含糊 (2)必须认真确定算法所处理的输入的值域 (3)同一算法可以用几种不同的形式来描述 (4)同一问题,可能存在几种 阅读全文
摘要:
一、推荐系统与评估 0.一种数学定义: (1)设C为全体用户集合 (2)设S为全部商品/推荐内容集合 (3)设u是评判把si推荐给ci好坏判断函数 (4)推荐是对于c<-C,找到s<-S,使得u最大,即: 部分场景是topN推荐 (5)通俗点说,推荐系统需要根据用户的历史行为,社交行为,兴趣点,所处 阅读全文
摘要:
1.算法的四个特性: (1)有穷性; (2)确定性; (3)可行性; (4)输入和输出; 2. (1)穷举法(万能算法):如求N个数的全排列 8皇后问题 (2)分而治之(建而治之): 二分查找:减为治之 归并排序:分而治之 (3)贪心 最小生成树Prim Kruskal 单源最短路径 Dijkstr 阅读全文
摘要:
0.调优模型,让模型在给定的数据集上有更好的效果。 一、前序工作流程 0.数据清洗 (1)不可信的样本丢掉 (2)缺省值极多的字段考虑不用 1.数据采样: (1)下/上采样 (2)保证样本均衡 2.特征处理(特征工程) 数值型 类别型 时间型 文本型 统计型 组合特征 3.特征选择(特征工程) (1 阅读全文
摘要:
一、图像识别与定位 思路1:视作回归 4个数字,用L2 loss/欧氏距离损失(x,y,w,h)这四个数都是连续值 思路2:借助图像窗口 二、物体识别 0.图像识别与定位: (1)Classification:C个类别 (2)Input:Image (3)Output:类别标签 (4)Evaluat 阅读全文
摘要:
一、前言 1.特征工程与意义 (1)特征:数据中抽取出来的对结果预测有用的信息 (2)特征工程师使用专业的背景知识和技巧来处理数据,使得特征能在机器学习算法中发挥更好的作用的过程 (3)意义:更好的特征意味着更强的灵活度 更好的特征意味着只需要简单模型 更好的特征意味着更好的结果 2.实际工业界特征 阅读全文
摘要:
一、熵、联合熵(相当于并集)、条件熵、互信息 1.熵是什么? (0)信息量:信息的度量p(xi)。信息量和概率成反比,熵是信息量的期望。 X是一个随机变量,可能取值有很多个。熵是信息量的期望。熵反应的是不确定性,如果不确定性越高,熵越高,概率越低。熵是可以大于1的,但是概率是不可以大于1的 (1)物 阅读全文
摘要:
零、各种概念 1.硬间隔最大化 2.硬间隔支持向量机 3.线性支持向量机 软间隔最大化 软间隔支持向量机 4.非线性支持向量机 核函数kernel function 一、理解支持向量机SVM的原理和目标 二、理解支持向量机的计算过程和算法步骤 三、理解软间隔最大化的 含义 1.对线性不可分数据给出( 阅读全文
摘要:
阅读全文