摘要:
Logistic Regression: 1.由线性回归,加上sigmoid得来 2. 线性回归得到的是一个值,Logistic Regression得到的是一个概率 3. sigmoid函数减少了极端值的影响 4. 如果样本不是线性回归可处理的,那么logistic regression效果就比较 阅读全文
摘要:
https://www.runoob.com/w3cnote/quick-sort.html 1. 双指针,left, right , while left < right: 一直重复 2. 2. 每次递归,取l s[ left ] 为temp a) 从right往回遍历,找到第一个比temp小的数 阅读全文
摘要:
1. 离散化 a) 无序变量离散化—— OneHotEncoder b)有序变量离散化 等宽划分:按照相同宽度将数据分成几等份。缺点是受到异常值的影响比较大。 pandas.cut方法可以进行等宽划分。 等频划分:将数据分成几等份,每等份数据里面的个数是一样的。pandas.qcut方法可以进行等频 阅读全文
摘要:
https://www.jianshu.com/p/569efedf6985 L1/L2/特征选择 看它就够了 https://www.cnblogs.com/nolonely/p/6435083.html https://www.zhihu.com/question/26485586 还有就是 L 阅读全文
摘要:
sliding window中几个注意点 1. right+=1的地方,有两个位置 a) 一个是放在left内层循环上 b) 一个是放在外层循环最后,这样相当于用的for循环 2. 更新条件,像最长子串这种result,一般是在内层循环结束之后 a) 这是因为判断条件一般都是 res > condi 阅读全文
摘要:
3.1跳过 3.2跳过 3.3语言与智能:信息熵 1)Claude Shannon: 更多研究从高校转移到企业 2) information Entropy: 3)熵 a) 熵是一个 信息增量函数 H(x) >=0 b) 发生概率越低的事件,信息量越大; H(x)与P(x)成反比 c) H(x1,x 阅读全文
摘要:
思路: 1. 本题是sliding window模板解法,与3.无重复的最长子串一样 2. a) 执行外层循环,右指针++,直到满足条件 b) 满足条件后更新min_len c) 满足条件后启动内层循环,左指针++,直到不满足条件 3. 使用了 defaultdict 阅读全文
摘要:
注意: 1. max_len = max( max_len, right-left) 这里是right-left 而不是right-left+1,因为进入第一层循环后right+=1了 2. 做最大值判断的地方,放在二重循环判断完后。 3. 本题解法是sliding window的模板,可背下来 4 阅读全文
摘要:
1.3 NLP六个重要术语 Syntax: 词性分类 Morphology: 时态(现在时,过去时,第三人称) Semantics:词意 1.4 语言学的发展史1 罗素悖论: 自己索引自己时,发生的悖论 例: 存在两种书,A种书索引自己,B种书不索引自己 现要写一本大全C汇总A,B,索引自己和不索引 阅读全文