随笔分类 -  信息检索Information Retrieval

摘要:代码:# _*_ coding:utf-8 _*_import urllib2import re#import sys#reload(sys)#sys.setdefaultencoding('utf-8') class Tool: removeImg = re.compile(r'') ... 阅读全文
posted @ 2015-11-28 20:28 AndyJee 阅读(1128) 评论(0) 推荐(0) 编辑
摘要:代码:# _*_ coding:utf-8 _*_import urllibimport urllib2import reclass Tool: removingImg = re.compile('| {7}|') removingAddr = re.compile('|') re... 阅读全文
posted @ 2015-11-27 17:20 AndyJee 阅读(758) 评论(0) 推荐(0) 编辑
摘要:代码:# _*_ coding:utf-8 _*_import urllib2import refrom datetime import datetimeclass QSBK: def __init__(self): self.pageIndex = 1 self.... 阅读全文
posted @ 2015-11-26 11:15 AndyJee 阅读(763) 评论(0) 推荐(0) 编辑
摘要:最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家。来源:http://cuiqingcai.com/1052.html一、Python入门1.Python爬虫入门一之综述2.Python爬虫入门二之爬虫基础了解3.Python爬虫入门三之Urllib库的基本... 阅读全文
posted @ 2015-11-25 10:05 AndyJee 阅读(1117) 评论(0) 推荐(0) 编辑
摘要:主要内容: 1、文本表示与特征提取; 2、隐语义分析LSA和Latent Dirichlet Allocation(LDA) 3、检索模型:Boolean模型、向量模型、概率模型 1、文本表示与特征提取 文本中抽取出的特征词进行量化来表示文本信息; 利用分词工具:极易中文分词:je-analysis-1.5.3,庖丁分词:paoding-analyzer.jar, ... 阅读全文
posted @ 2014-05-20 23:35 AndyJee 阅读(2338) 评论(1) 推荐(0) 编辑
摘要:隐马尔可夫模型HMM与维特比Veterbi算法(二)主要内容:前向算法(Forward Algorithm)穷举搜索( Exhaustive search for solution)使用递归降低问题复杂度前向算法的定义程序实现前向算法举例说明前向算法一、前向算法(Forward Algorithm)... 阅读全文
posted @ 2014-05-17 11:27 AndyJee 阅读(1443) 评论(0) 推荐(0) 编辑
摘要:隐马尔可夫模型HMM与维特比Veterbi算法(一)主要内容:1、一个简单的例子2、生成模式(Generating Patterns)3、隐藏模式(Hidden Patterns)4、隐马尔可夫模型(Hidden Markov Model)一、一个简单的例子 考虑一个简单的例子,有人试图通过一片海藻... 阅读全文
posted @ 2014-05-16 22:44 AndyJee 阅读(3099) 评论(0) 推荐(0) 编辑
摘要:第一讲 布尔检索Boolean Retrieval主要内容: 信息检索概述 倒排记录表 布尔查询处理 一、信息检索概述什么是信息检索? Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). 信息检索是从大规模非结构化数据(通常是文本)的集合(通常 阅读全文
posted @ 2013-12-18 14:20 AndyJee 阅读(4846) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示