乐乐章

2018年4月16日

摘要： Learning to rank 排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法，这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作，Learning to Rank for Information Retrie 阅读全文

posted @ 2018-04-16 18:32 乐乐章阅读(1474) 评论(0) 推荐(0) 编辑

ac自动机

摘要： 1 应用场景 ac自动机其实就是一种多模匹配算法。与多模与之对于的是单模，单模就是给你一个单词，然后给你一个字符串，问你这个单词是否在这个字符串中出现过（匹配），这个问题可以用kmp算法在比较高效的效率上完成这个任务。那么现在我们换个问题，给你很多个单词，然后给你一段字符串，问你有多少个单词在这个字阅读全文

posted @ 2018-04-16 11:21 乐乐章阅读(257) 评论(0) 推荐(0) 编辑

208. Implement Trie (Prefix Tree)

摘要： implement a trie with insert, search, and startsWith methods. Note:You may assume that all inputs are consist of lowercase letters a-z. 1 class Trie: 阅读全文

posted @ 2018-04-16 11:13 乐乐章阅读(114) 评论(0) 推荐(0) 编辑

字典树 trie

摘要： Trie树 Trie树，就是字母树。Trie树是多叉树，每个节点为一个字母。其根节点为象征节点（就是说没有含义，但是存在这个节点），从根节点开始建立，每个节点至多为26个子节点（不要我说为什么吧），这样，我们就可以用这种方便快捷的方式存储字符串。其应用也不言而喻，用于保存，统计，排序，查找大量字符串阅读全文

posted @ 2018-04-16 11:12 乐乐章阅读(292) 评论(0) 推荐(0) 编辑

倒排索引

摘要：倒排索引(Inverted index) 方法介绍倒排索引是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射，常被应用于搜索引擎和关键字查询的问题中。以英文为例，下面是要被索引的文本：我们就能得到下面的反向文件索引：检索的条件"what","is"和"it 阅读全文

posted @ 2018-04-16 09:14 乐乐章阅读(228) 评论(0) 推荐(0) 编辑

2018年4月15日

百度大搜算法的实习

摘要：百度大搜 rank实习一面面了2个小时，面到怀疑人生。算法题：手写快排 .最长公共子串懵逼的题： learn2rank 短串匹配：有一些短串，如杨幂刘翔（几万），还有很多query(几亿)，比如刘翔夺冠（命中），刘夺冠（没命中）,删除没命中的query。字典树+KMP字符串匹配（ac 阅读全文

posted @ 2018-04-15 21:25 乐乐章阅读(564) 评论(0) 推荐(0) 编辑

学习路径

摘要：工具类： 1 git 廖雪峰 2 Python 廖雪峰 3 利用Python进行数据分析 4 liunx (鸟哥私房菜) 5 java （head first java） 6 机器学习实战入门科普类： 1 数学之美 2 数据挖掘导论理论类：机器学习： 1 统计学习方法 2 西瓜书 3 机器学习阅读全文

posted @ 2018-04-15 09:26 乐乐章阅读(206) 评论(0) 推荐(0) 编辑

2018年4月14日

154. Find Minimum in Rotated Sorted Array II(剑指offer)

摘要： Follow up for "Find Minimum in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Suppose a 阅读全文

posted @ 2018-04-14 23:18 乐乐章阅读(135) 评论(0) 推荐(0) 编辑

169. Majority Element

摘要： Given an array of size n, find the majority element. The majority element is the element that appears more than⌊ n/2 ⌋ times. You may assume that the 阅读全文

posted @ 2018-04-14 23:11 乐乐章阅读(125) 评论(0) 推荐(0) 编辑

2018年4月13日

结巴分词中TFIDF的原理

摘要：之前了解TFIDF只是基于公式，今天被阿里面试官问住了，所以深入讨论下TFIDF在结巴分词中原理。概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文阅读全文

posted @ 2018-04-13 18:55 乐乐章阅读(1586) 评论(0) 推荐(0) 编辑

NLP/推荐我很菜

公告

乐乐章

NLP/推荐 我很菜

公告

NLP/推荐我很菜