摘要:
一、背景 1. 问题 一切模型始于问题,我们首先抛出一个问题:如何计算一段文本出现的概率? 这个其实是语言模型要解决的问题,如果它解决了,那么对话系统就可以从生成句子的候选集中选择出现概率最大的进行回答;翻译模型也可以选择最合理的一句话作为翻译结果,一切变得简单直接。 一切模型始于问题,我们首先抛出 阅读全文
摘要:
最近工作接触到了网络服务同步和异步,所以学习了下《UNIX网络编程》,在此作下总结。 一、I/O模型 输入/输出(I/O)是在主存和外部设备(如磁盘驱动器、终端和网络)之间拷贝数据的过程。输入是从I/O设备拷贝数据到主存,而输出是从主存拷贝数据到I/O设备。比如,网络可视为一个I/O设备,作为数据源 阅读全文
摘要:
最近公司新入职了很多小伙伴~ 现整理一些常用到的编码知识点,帮助小伙伴绕坑远行~ 一、字符编码由来 我们知道计算机内部只能处理0和1,也就是二进制编码。我们熟知的磁盘文件其实是操作系统对计算机内部存储的一种抽象封装,方便应用程序读取以及人们交流。磁盘文件中的内容需要转换为数字,以二进制方式存储,才能 阅读全文
摘要:
我们常常被问到"方差的无偏估计如何计算?和有偏估计的区别是什么?",心想"哎呀,又忘了"。本篇回归问题本质,带你理解这些名词背后解决的实际问题(通过总结回顾,无意中解决了一年以来萦绕脑海的遗留问题,开森~~)。 一、基本概念 解题第一步是理解题意,通过示例首先搞清楚以下几个概念。 假如你想调研所在大 阅读全文
摘要:
前几节介绍了下常用的函数和常踩的坑以及如何打包程序,现在来说下如何调参优化。当我们开发完一个项目,测试完成后,就要提交到服务器上运行,但运行不稳定,老是抛出如下异常,这就很纳闷了呀,明明测试上没问题,咋一到线上就出bug了呢!别急,我们来看下这bug到底怎么回事~ 一、错误分析 1、参数设置及异常信 阅读全文
摘要:
解决上述办法有两点: 1、两个import 需要放在 hiveCtx之后。 2、case class 类(param1:type1 )需要放在函数外面,作为成员变量。 阅读全文
摘要:
一、背景 处理json格式的字符串,key值一定为String类型,但value不确定是什么类型,也可能嵌套json字符串,以下是使用 JSON.parseFull 来解析多层json。 二、实例代码 三、分析 以上代码中,需要注意的两点是(1)类型转换时,默认的Map为 scala.collect 阅读全文
摘要:
初次尝试用 Spark+scala 完成项目的重构,由于两者之前都没接触过,所以边学边用的过程大多艰难。首先面临的是如何快速上手,然后是代码调优、性能调优。本章主要记录自己在项目中遇到的问题以及解决方式,下篇会尝试调优方法。末尾会分享自己的学习资料,也供大多菜鸟第一次使用作为参考。由于自己项目中大量 阅读全文
摘要:
上一节简单介绍了Spark的基本原理以及如何调用spark进行打包一个独立应用,那么这节我们来学习下在spark中如何编程,同样先抛出以下几个问题。 Spark支持的数据集,如何理解? Spark编程中常用到的操作? 一、RDD基础 1、RDD简介 在上一节的组件图Spark Core中我们简单提到 阅读全文
摘要:
在做spark项目时,我们常常面临如何在本地将其打包,上传至装有spark服务器上运行的问题。下面是我在项目中尝试的两种方案,也踩了不少坑,两者相比,方案一比较简单,本博客提供的jar包适用于spark版本2.0以下的,如果jar包和版本不对应会出现找不到类或方法等错误提示信息,它主要借助于ecli 阅读全文