/*自定义导航栏*/
摘要: 某学院软件工程复试回忆总结 复试300分,笔试 100分,面试200分( 50分 英语 120分 专业课 30分 仪容仪表)总分800分 1 复试笔试部分 四个部分:1.选择题 2.判断题 3.名词解释题 4.简答题 1.选择题(30分) 比较基础 实用软件工程 C++ 题目都有,但不难只记得一题. 阅读全文
posted @ 2016-03-30 20:36 伏草惟存 阅读(3109) 评论(0) 推荐(1) 编辑
摘要: 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理。首先我们要意识到预处理的重要性。在大数据的背景下,越来越多的非结构化半结构化文本。如何从海量文本中抽取我们需要的有价值的知识显得尤为重要。另外文本格式常常不一,诸如:pdf,word,excl,xml,ppt,txt等常见文件类型你或许经过一番周折还是有办法处理的。倘若遇到database,html,邮件,RTF,图像,语音等文件,你是否素手无策了。基于此本文总结Apache Tika内容抽取工具,其强大之处在于可以处理各种文件,另外节约您更多的时间用来做重要的事情。本文第一节采用核心概念讲解第二节知识扩展补充。第三节典型DOME配有源代码第四节参考核心文件和Tika工具的JAR包共享。(本文作者原创,汇编整理所得,转载请注明:Tika常见格式文件抽取内容并做预处理) 阅读全文
posted @ 2016-03-30 18:57 伏草惟存 阅读(15319) 评论(0) 推荐(3) 编辑