摘要:
贝叶斯推断及其互联网应用(三):拼写检查 作者: 阮一峰 日期: 2012年10月16日 作者: 阮一峰 日期: 2012年10月16日 (这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。) 使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。 比如 阅读全文
摘要:
有关贝叶斯原理的讲解, 请查看这里。这里讲述的是通过贝叶斯推断如何过滤垃圾邮件。贝叶斯推断及其互联网应用 (接上文)七、什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。 正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有“关键词法”和“校验码法”等。前者的过 阅读全文
摘要:
一年前的这个时候,我正在翻译Paul Graham的《黑客与画家》。 那本书大部分谈的是技术哲学,但是第八章却写了一个非常具体的技术问题 如何使用贝叶斯推断过滤垃圾邮件(英文版)? 说实话,我没完全看懂那一章。那时,交稿截止日期已经过了,没时间留给我去啃概率论教科书了。我只好硬着头皮,按照字面意思把 阅读全文
摘要:
写在前面的话: 我现在大四,毕业设计是做一个基于大数据的用户画像研究分析。所以开始学习数据挖掘的相关技术。这是我学习的一个新技术领域,学习难度比我以往学过的所有技术都难。虽然现在在一家公司实习,但是工作还是挺忙的,经常要加班,无论工作多忙,还是决定要写一个专栏,这个专栏就写一些数据挖掘算法、数据结构 阅读全文
摘要:
首先看看从官网学习后总结的一个思维导图 概述(Overview) Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。 开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类,或 阅读全文
摘要:
RDD算子分类,大致可以分为两类,即: Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。 Action:行动算子,这类算子会触发SparkContext提交Job作业。 一:Transformation:转换算子 1.map map是对RDD中的每个元素都执行 阅读全文