2017 年 1月 16 日随笔档案 - 成金之路

2017年1月16日

摘要：文章顺序排在《地图和本地搜索的最基本技术》之后 1.特征向量的提取 i.思想：想让计算机来对新闻进行分类，先要将新闻变为一组可计算的数字 ii.实现： a.去掉新闻中的助词（的、地、得），以及虚词（之乎者也） b.然后将剩下的词的IF-IDF，依据词汇表的顺序，组成一个特征向量；向量中的每一个维度阅读全文

posted @ 2017-01-16 15:45 成金之路阅读(1179) 评论(0) 推荐(0) 编辑

分治算法（Divide-and-Conquer）和Google的云计算

摘要： 1.云计算：涉及到存储、计算、资源的调度和权限的管理等 2.分治算法的原理：讲一个复杂的问题，分成若干个简单的子问题进行解决，然后对子问题的记过进行合并，得到原有问题的解 3.分治算法到云计算： a.大数组排列的分治算法： i.先将大数组一分为2，对每一半进行排序 ii.对子数组进行合并 iii. 阅读全文

posted @ 2017-01-16 15:39 成金之路阅读(271) 评论(0) 推荐(0) 编辑

逻辑回归和搜索广告

摘要： 1.发展的三个阶段： a.百度和雅虎的竞价排名： b.Google根据出价和点击率来决定广告的投放，关键是要预测用户的点击率 c.整体的优化 d.根据历史点击率来预估点击率的不足： i.新的广告的投放 ii.很多查询对应的广告才2-3此点击，统计的数据严重不足 iii.消除摆放位置的噪声 e.工业界阅读全文

posted @ 2017-01-16 15:38 成金之路阅读(851) 评论(0) 推荐(0) 编辑

期望最大化算法的文本自动分类问题

摘要： 1.Expectation Maximization Algorithm期望最大化算法 a.应用：互联网的各个产品、可以用到几乎所有分类中，比如用户的分类、词的分类、商品的分类、生物特征和基因的分类 2.文本自收敛分类 k-聚类，首先提取文本向量，然后随机选取k个中心点，其后进行距离计算，对文本进行阅读全文

posted @ 2017-01-16 15:37 成金之路阅读(497) 评论(0) 推荐(0) 编辑

数字通信以及自然语言处理的解码算法之维特比算法

摘要： 1.用途：数字通信以及自然语言处理的解码算法 2.算法描述： a.具体用途：针对篱笆网络的有向图的最短路径问题提出的，凡是使用隐含马尔科夫模型描述的问题，都可以用他来解码，包括数字通信、语言识别、机器翻译、拼音转汉字、分词等 b.模型图： i.模型描述：以拼音转汉字为例，输入的拼音为y1,... 阅读全文

posted @ 2017-01-16 15:36 成金之路阅读(970) 评论(0) 推荐(0) 编辑

条件随机场和句法分析器

摘要： 1.句法分析计算机算法的演变 a.基于规则的方法： i.不断的使用规则将树的末端节点逐级向上合并，直到合并出根节点，即一整句；也可以自顶向下 ii.缺点：容错性较差，选择规则出错时需要回溯，算法复杂度很大 b.基于统计的方法： i.让句子的语法树的概率最大 ii.括括号的做法：先对句子分词-->将词阅读全文

posted @ 2017-01-16 15:34 成金之路阅读(512) 评论(0) 推荐(0) 编辑

所有输入法基本原理之"马尔科夫链"的扩展——贝叶斯网络

摘要： 1.贝叶斯网络 a.定义：将相互交叉、错综复杂的事情的关系图描述为一个网络，每个圆圈代表一个状态（事情），圆圈间的连线为两者间的关系，假设马尔科夫假设成立，即每一个状态只和它直接相连的状态有关，和间接相连的状态没有直接关系，那么此网络成为贝叶斯网络 b.可信度：两个状态间量化的权重，马尔科夫假设阅读全文

posted @ 2017-01-16 15:33 成金之路阅读(1383) 评论(0) 推荐(0) 编辑

布隆过滤器（BoomFilter）

摘要： 1.原理: a.解决的问题：判断一个元素是否在一个集合中 b.Hash表的特点： i.快速准确，但是耗费存储空间 ii.先将url或者email转为8个字节的信息指纹，在考虑Hash50%的存储效率，1亿url或者email需要16亿字节，即1.6GB空间 c.布隆过滤器： i.能用1/8到1/4 阅读全文

posted @ 2017-01-16 15:32 成金之路阅读(3972) 评论(0) 推荐(0) 编辑

拼音输入法的数学原理

摘要： 1.输入法与编码： a.对汉字的编码分为两个部分： i.对拼音的编码 ii.对消除歧义的编码 b.拼音输入法的优势： i.不需要专门的学习 ii.输入自然，不会中断思维，即找每个键的时间短 iii.编码长，有信息冗余，容错性好 2.输入一个汉字需要敲多少个键——香农第一定理 a.香农第一定理: 对于阅读全文

posted @ 2017-01-16 15:28 成金之路阅读(5372) 评论(0) 推荐(1) 编辑

模型的重要性以及最大熵模型

摘要： 1.对于模型： i.一个正确的模型应当在形式上是简单的 ii.一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确，但是，如果我们认为大方向是对的，就应该坚持下去 iii.大量准确的数据对研发很重要 iv.正确的模型受噪音的干扰，显得不准确，此时不应该用一种凑合的修正方法来弥补它，而是要找阅读全文

posted @ 2017-01-16 15:27 成金之路阅读(451) 评论(0) 推荐(0) 编辑

搜索引擎的反作弊问题

摘要： 1.反作弊的道和术问题：术：根据看到的作弊的例子，去分析它，然后清除它道：透过具体的作弊例子，找到作弊的动机和本质，从本质上解决问题 2.通信模型在反作弊中的应用：通信解决噪音： i.从信息源出发，加强通信（编码）自身的抗干扰能力 ii.从传输来看，过滤掉噪音，还原信息搜索反作弊： i.增强阅读全文

posted @ 2017-01-16 15:26 成金之路阅读(518) 评论(0) 推荐(0) 编辑

信息指纹（Fingerprint）及其应用

摘要： 1.应用： i.网页地址去重网页地址有100个字符，存储5000亿个网址本身需要50T的容量，而Hash表的存储效率只有50%，所有存储爬虫已经爬过的网址需要100T的内存解决办法：将网址随机映射到128个bit上，即16个字节的整数空间上，每个网址只需要16个字节，而不是100个了，内存的需求阅读全文

posted @ 2017-01-16 15:24 成金之路阅读(2966) 评论(0) 推荐(0) 编辑

矩阵运算和文本处理中的分类问题

摘要： 1.文本的分类可以和《集体智慧编程》中的新闻分类方法结合起来《集体智慧编程》最后是用权重矩阵和特征矩阵的迭代来找出成本最低的量矩阵，而本文将用到矩阵的奇异值分解（Singular Value Decomposition，简称SVD），来对准备好的矩阵进行分解同时矩阵中的数值是各个单词的TF-ID 阅读全文

posted @ 2017-01-16 15:20 成金之路阅读(837) 评论(0) 推荐(0) 编辑

地图和本地搜索的最基本技术——有限状态机和动态规划

摘要： 1.智能手机导航最关键的三个问题： a.利用卫星定位 b.地址识别 c.根据用户输入的起点和终点，在地图上规划最短路径或者最快路径 2.地址分析和有限状态机地址的识别上下文有关文法相对简单，最有效的是有限状态机：一个有限状态机是一个特殊的有向图，包括一些节点（状态）和连接这些节点的有向弧如果一个阅读全文

posted @ 2017-01-16 15:17 成金之路阅读(1820) 评论(0) 推荐(0) 编辑

搜索核心原理之网页和查询的相关性——TF-IDF

摘要： 1.相关性的演进： i.单文本词频TF（Term Frequency）用关键词的出现的次数除以文章的总次数，做归一化处理得到TF，来屏蔽文章长度对用关键词出现次数来衡量相关性时的影响 ii.搜索关键词权重的度量IDF： ii.搜索关键词权重的度量IDF：需要给每个此赋以权重，来区分查询中词的重要阅读全文

posted @ 2017-01-16 15:15 成金之路阅读(631) 评论(0) 推荐(0) 编辑

图论和网络爬虫

摘要： 1.BFS和DFS：广度优先算法Breadth-First Search 深度优先算法Depth-First Search 2.欧拉七桥问题的证明：每一块连接的陆地抽象为顶点，每座桥当成图的一条边，则根据图形可以证明无法不重复的遍历所有的顶点度：和每个顶点相连接的边的数据定理：如果一个图能从阅读全文

posted @ 2017-01-16 15:12 成金之路阅读(287) 评论(0) 推荐(0) 编辑

简单之美——布尔代数和搜索引擎的索引

摘要： 1.术和道：具体做事的方法是术，做事的原理和原则是道；任何术都会由独门绝技，到普及，到落伍，只有掌握了道，做事才能游刃有余 2.搜索引擎的原理：自动下载网页——建立索引——根据相关性对网页进行公平的排序 3.索引爬虫自动下载网页，然后给网页进行二进制的编号；然后基于关键字做索引，每个关键字跟阅读全文

posted @ 2017-01-16 15:11 成金之路阅读(649) 评论(0) 推荐(0) 编辑

信息的度量和作用

摘要： 1.信息熵：一条信息的信息量和它的不确定性有着直接的关系，所有信息量就等于不确定性的多少度量工具：对于任意一个随机变量X，其熵定义如下： H(x)=-∑P(x)logP(x)，其中x∈X 2.信息的作用：用来消除不确定性一个事物内部会存在随机性，即不确定性，假定为U，要从外部消除此不确定性唯阅读全文

posted @ 2017-01-16 15:09 成金之路阅读(1978) 评论(0) 推荐(0) 编辑

隐马尔科夫模型

摘要： 1.通信模型：其中S1,S2,...,Sn表示信息源发出的信号，比如手机信号，而O1,O2,...,On表示接受者接收的信号，通信中的解码就是将接收到的信号O1,O2,...,On还原为发送的S1,S2,...,Sn 通信系统的六要素：发送者（信息源）、信道、接受者、信息、上下文和编码通过机器基阅读全文

posted @ 2017-01-16 15:06 成金之路阅读(322) 评论(0) 推荐(0) 编辑

统计语言模型

摘要： 1.一句话真正意思的概率P(S)=P(W1,W2,...,Wn) 根据条件概率变形： P(W1,W2,...,Wn)=P(W1)P(W2|W1)...P(Wn|W1,W2,...,Wn-1)——统计语言原始模型假设一个词出现的概率只跟上一个词有关（马尔科夫假设），则原始模型变形为 P(S)=P(W 阅读全文

posted @ 2017-01-16 15:02 成金之路阅读(377) 评论(0) 推荐(0) 编辑

成金之路

The way to be shining like the gold!

公告