06 2013 档案
摘要:基于关键词的识别的问题。1、在关键字中插入字符会导致关键字识别率下降 2、关键词的扩充问题改进方向 原理:基于信息内容和统计的识别方式假设正常用户产生数据具有如下信息: 1、在用户产生的信息中,信息的分布是均匀的,也就是重复性很小 2、数字信息所占百分比较低解决方案设计 1、根据假设1,统计无效字符和汉字字符的比例,无效字符超过汉字可认为广告嫌疑较高 2、根据假设2,统计数字出现频率,数字出现次数过高认为广告嫌疑较大 3、根据假设1,统计重复出现的汉字占文章中汉字总数的比率,超过一定比率认为信息重复,广告嫌疑较大 4、建立常见广告字库,对文章中广告字进行统计和比例计算-------------
阅读全文
摘要:今天工作中碰到分词问题的分析。问题是“上海人”分词为“上海”和“人”两个最小单元,还是以“上海人”为最小单元?分词的原文如下:“3月23日,早餐后前往豪尔赫机场,搭乘9点15分的阿航AR1874次航班波音737客机,3个多小时后,中午12点25分到达了埃尔卡拉法特机场,今天我们将要游览心仪已久的莫雷诺大冰川。地接导游王强是个上海人,他将陪伴着我们走完在阿根廷境内的所有游程。”由此,引出一个话题,搜索是基于文本的搜索还是基于信息的搜索。基于文本的搜索就是,对众多文章进行文本的拆分,拆分后的文本建立索引,在用户进行搜索的时候,将用户输入的文本进行进行拆分,并将这些拆分后的文本在索引中匹配。基于文本
阅读全文
摘要:工作环境:1、宿主机:win72、客户机:centos 版本64,32位(本人使用网上下载的iso镜像进行安装)3、virtualBox版本:4.1.22 r80657客户机必装软件1、centos随盘提供的安装包kernel-headers,kernel-devel和gcc2、virtualBox的“安装增强功能所”所提供的安装软件安装centos随盘提供的安装包步骤1:打开centos终端步骤2:运行命令yum install kernel-headers kernel-devel步骤3:运行命令yum install gcc安装virtualBox的“安装增强功能所”所提供的安装软件 1
阅读全文