随笔分类 - 学校课程
学校相关课程的记录
摘要:需要安装准备的软件 本实验主要用到的软件包括Xmanager6(官网下载即可https://www.xshellcn.com/)和pyCharm(官网下载即可) 链接服务器 打开Xshell,按常规步骤连接到服务器 使用命令下载anaconda wget https://repo.anaconda.
阅读全文
摘要:如何建立词项词典 文档解析 识别不同文档格式/识别文档语言/识别文档编码方式/一个文档或其附件中包含多种语言或格式 词条化 定义:将给定的自负系列拆分为一系列子序列的过程,其中每一个子序列称之为一个“词条”Token 词条化可能会遇到的问题:连字符/空格、连字符空格相互影响、英文句号的考虑、数字的考
阅读全文
摘要:本文仅做《信息检索技术》期末预习使用,内容简略仅做大纲使用,期末抱佛腿的孩子请另寻他处(博主自己也快预习不完了QAQ)。 讲课内容 信息检索的基本知识 布尔检索 文档评分 倒排索引 向量空间模型 检索评价 检索模型 简单的自然语言处理 语言模型 信息检索/知识发现/机器学习/数据挖掘中的经典算法 分
阅读全文
摘要:本文仅做《信息检索技术》期末预习使用,内容简略仅做大纲使用,期末抱佛腿的孩子请另寻他处(博主自己也快预习不完了QAQ)。 信息检索模型概述 检索模型的定义 信息检索模型是描述信息检索中的文档、查询和他们之间关系(匹配函数)的数学模型 布尔模型的定义 文档表示:关键词的集合(bag of words)
阅读全文