2023 年 11月 10 日随笔档案 - Yohoc

2023年11月10日

摘要：语言模型马尔可夫模型和n元语法自然语言统计读取长序列数据由于序列数据本质上是连续的，因此我们在处理数据时需要解决这个问题。在 8.1节中我们以一种相当特别的方式做到了这一点：当序列变得太长而不能被模型一次性全部处理时，我们可能希望拆分这样的序列方便模型读取。在介绍该模型之前，我们看一阅读全文

posted @ 2023-11-10 22:05 Yohoc 阅读(26) 评论(0) 推荐(0) 编辑

机器学习——文本预处理

摘要：对于序列数据处理问题，我们在 8.1节中评估了所需的统计工具和预测时面临的挑战。这样的数据存在许多种形式，文本是最常见例子之一。例如，一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。本节中，我们将解析文本的常见预处理步骤。这些步骤通常包括：将文本作为字符串加载到内存中。将字符阅读全文

posted @ 2023-11-10 20:45 Yohoc 阅读(32) 评论(0) 推荐(0) 编辑

机器学习——序列模型

摘要：在本质上，音乐、语音、文本和视频都是连续的。如果它们的序列被我们重排，那么就会失去原有的意义。比如，一个文本标题“狗咬人”远没有“人咬狗”那么令人惊讶，尽管组成两句话的字完全相同。处理序列数据需要统计工具和新的深度神经网络架构。为了简单起见，我们以图8.1.1所示的股票价格（富时100指数阅读全文

posted @ 2023-11-10 19:06 Yohoc 阅读(42) 评论(0) 推荐(0) 编辑

Yohoc

公告