摘要: 语言模型 马尔可夫模型和n元语法 自然语言统计 读取长序列数据 由于序列数据本质上是连续的,因此我们在处理数据时需要解决这个问题。 在 8.1节中我们以一种相当特别的方式做到了这一点: 当序列变得太长而不能被模型一次性全部处理时, 我们可能希望拆分这样的序列方便模型读取。 在介绍该模型之前,我们看一 阅读全文
posted @ 2023-11-10 22:05 Yohoc 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 对于序列数据处理问题,我们在 8.1节中 评估了所需的统计工具和预测时面临的挑战。 这样的数据存在许多种形式,文本是最常见例子之一。 例如,一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。 本节中,我们将解析文本的常见预处理步骤。 这些步骤通常包括: 将文本作为字符串加载到内存中。 将字符 阅读全文
posted @ 2023-11-10 20:45 Yohoc 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 在本质上,音乐、语音、文本和视频都是连续的。 如果它们的序列被我们重排,那么就会失去原有的意义。 比如,一个文本标题“狗咬人”远没有“人咬狗”那么令人惊讶,尽管组成两句话的字完全相同。 处理序列数据需要统计工具和新的深度神经网络架构。 为了简单起见,我们以 图8.1.1所示的股票价格(富时100指数 阅读全文
posted @ 2023-11-10 19:06 Yohoc 阅读(42) 评论(0) 推荐(0) 编辑