随笔档案「2016年3月」 - 伏草惟存

某学院软件工程复试回忆总结

摘要：某学院软件工程复试回忆总结复试300分，笔试 100分，面试200分（ 50分英语 120分专业课 30分仪容仪表）总分800分 1 复试笔试部分四个部分：1.选择题 2.判断题 3.名词解释题 4.简答题 1.选择题（30分）比较基础实用软件工程 C++ 题目都有，但不难只记得一题. 阅读全文

posted @ 2016-03-30 20:36 伏草惟存阅读(3202) 评论(0) 推荐(1)

【NLP】Tika 文本预处理：抽取各种格式文件内容

摘要：摘要：本文主要针对自然语言处理（NLP）过程中，重要基础部分抽取文本内容的预处理。首先我们要意识到预处理的重要性。在大数据的背景下，越来越多的非结构化半结构化文本。如何从海量文本中抽取我们需要的有价值的知识显得尤为重要。另外文本格式常常不一，诸如：pdf，word，excl，xml，ppt，txt等常见文件类型你或许经过一番周折还是有办法处理的。倘若遇到database，html，邮件，RTF,图像，语音等文件，你是否素手无策了。基于此本文总结Apache Tika内容抽取工具，其强大之处在于可以处理各种文件，另外节约您更多的时间用来做重要的事情。本文第一节采用核心概念讲解第二节知识扩展补充。第三节典型DOME配有源代码第四节参考核心文件和Tika工具的JAR包共享。(本文作者原创，汇编整理所得，转载请注明：Tika常见格式文件抽取内容并做预处理) 阅读全文

posted @ 2016-03-30 18:57 伏草惟存阅读(16629) 评论(0) 推荐(3)

OpenNLP：驾驭文本，分词那些事

摘要：摘要：字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库，这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词，对于英文分词工具很多，笔者经比较Apache OpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。开篇简介OpenNLP的情况，随后介绍6种常用模型，最后针对每种模型的使用和Java实现进行总结。部分笔者可能质疑那么中文分词怎么办？随后篇章会单独介绍中科院研究团队基于隐马尔可夫模型开发的中文分词工具NLPIR(ICTCLA)。内容经过多篇文档和书籍整理汇编，代码经运行无误。（本文原创，转载请标明出处：OpenNLP：驾驭文本，分词那些事）阅读全文

posted @ 2016-03-27 19:53 伏草惟存阅读(13160) 评论(0) 推荐(2)

【类库】私房干货.Net数据层方法的封装

摘要：摘要：继上篇《Oracle手边常用70则脚本知识汇总》文章的发表，引起很多朋友关注。便促使笔者收集整理此文。本文主要针是对微软技术对数据库（下文案例采用的）操作时，调用执行方法的封装，这也是数年逐渐学习、吸收、实践、完成的一个类库。其中不免有不合理之处，亦或是不符合个别读者的使用习惯。在此，共享此文，权当互相学习。（本文原创，转载注明出处：私房干货.Net数据层方法的封装）阅读全文

posted @ 2016-03-05 22:50 伏草惟存阅读(2384) 评论(1) 推荐(5)

Oracle手边常用70则脚本知识汇总

摘要：摘要: 日常使用oracle数据库过程中，常用脚本命令莫不是用户和密码、表空间、多表联合、执行语句等常规操作。另外表的导入导出也很常用，这些脚步命令之前都做有总结，今统一整理出最为常用的语句，使用方便而已。其中文档是笔者数年整理所得。阅读全文

posted @ 2016-03-04 14:00 伏草惟存阅读(4233) 评论(3) 推荐(30)

Oracle手边常用命令及操作语句

摘要：日常使用oracle数据库过程中，常用脚本命令莫不是用户和密码、表空间、多表联合、执行语句等常规操作。另外表的导入导出也很常用，这些脚步命令之前都做有总结，今统一整理出最为常用的语句，使用方便而已。阅读全文

posted @ 2016-03-04 11:23 伏草惟存阅读(816) 评论(0) 推荐(0)

03 2016 档案