Tools - 随笔分类 - 伏草惟存

Python 和 Elasticsearch 构建简易搜索

摘要：件开发最大的麻烦事之一就是环境配置，操作系统设置，各种库和组件的安装。只有它们都正确，软件才能运行。如果从一种操作系统里面运行另一种操作系统，通常我们采取的策略就是引入虚拟机，比如在 Windows 系统里面运行 Linux 系统。这种方式有个很大的缺点就是资源占用多、冗余步骤多、启动慢。目前最流行的 Linux 容器解决方案之一就是Docker，它最大优点就是轻量、资源占用少、启动快。本文从什么是Docker？Docker解决什么问题？有哪些好处？如何去部署实现去全面介绍。阅读全文

posted @ 2019-05-24 17:34 伏草惟存阅读(4544) 评论(0) 推荐(1)

Docker如何部署Python项目

摘要：软件开发最大的麻烦事之一就是环境配置，操作系统设置，各种库和组件的安装。只有它们都正确，软件才能运行。如果从一种操作系统里面运行另一种操作系统，通常我们采取的策略就是引入虚拟机，比如在 Windows 系统里面运行 Linux 系统。这种方式有个很大的缺点就是资源占用多、冗余步骤多、启动慢。目前最流行的 Linux 容器解决方案之一就是Docker，它最大优点就是轻量、资源占用少、启动快。本文从什么是Docker？Docker解决什么问题？有哪些好处？如何去部署实现去全面介绍。阅读全文

posted @ 2019-05-24 09:09 伏草惟存阅读(42736) 评论(3) 推荐(14)

【干货】Markdown编辑博文，公式图片轻松搞定

摘要：**Markdown** 是一种轻量级的「标记语言」，它的优点很多，目前也被越来越多的写作爱好者，撰稿者广泛使用。看到这里请不要被「标记」、「语言」所迷惑，Markdown 的语法十分简单。常用的标记符号也不超过十个，这种相对于更为复杂的 HTML 标记语言来说，Markdown 可谓是十分轻量的，学习成本也不需要太多，且一旦熟悉这种语法规则，会有一劳永逸的效果。[Markdown下载地址](https://pan.baidu.com/s/1eSzNSiA)。如果右侧不能即使显示请[下载安装awesomium](https://pan.baidu.com/s/1jIn411O) 阅读全文

posted @ 2017-05-22 19:41 伏草惟存阅读(1248) 评论(0) 推荐(3)

【结巴分词资料汇编】结巴中文分词基本操作(3)

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：【结巴分词资料汇编】结巴中文分词基本操作(3) 阅读全文

posted @ 2016-11-24 18:54 伏草惟存阅读(6293) 评论(1) 推荐(0)

【资料汇编】结巴中文分词官方文档和源码分析系列文章

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：结巴分词官方文档分析（1）阅读全文

posted @ 2016-11-23 16:54 伏草惟存阅读(4361) 评论(0) 推荐(2)

【NLP】Tika 文本预处理：抽取各种格式文件内容

摘要：摘要：本文主要针对自然语言处理（NLP）过程中，重要基础部分抽取文本内容的预处理。首先我们要意识到预处理的重要性。在大数据的背景下，越来越多的非结构化半结构化文本。如何从海量文本中抽取我们需要的有价值的知识显得尤为重要。另外文本格式常常不一，诸如：pdf，word，excl，xml，ppt，txt等常见文件类型你或许经过一番周折还是有办法处理的。倘若遇到database，html，邮件，RTF,图像，语音等文件，你是否素手无策了。基于此本文总结Apache Tika内容抽取工具，其强大之处在于可以处理各种文件，另外节约您更多的时间用来做重要的事情。本文第一节采用核心概念讲解第二节知识扩展补充。第三节典型DOME配有源代码第四节参考核心文件和Tika工具的JAR包共享。(本文作者原创，汇编整理所得，转载请注明：Tika常见格式文件抽取内容并做预处理) 阅读全文

posted @ 2016-03-30 18:57 伏草惟存阅读(16653) 评论(0) 推荐(3)

OpenNLP：驾驭文本，分词那些事

摘要：摘要：字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库，这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词，对于英文分词工具很多，笔者经比较Apache OpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。开篇简介OpenNLP的情况，随后介绍6种常用模型，最后针对每种模型的使用和Java实现进行总结。部分笔者可能质疑那么中文分词怎么办？随后篇章会单独介绍中科院研究团队基于隐马尔可夫模型开发的中文分词工具NLPIR(ICTCLA)。内容经过多篇文档和书籍整理汇编，代码经运行无误。（本文原创，转载请标明出处：OpenNLP：驾驭文本，分词那些事）阅读全文

posted @ 2016-03-27 19:53 伏草惟存阅读(13181) 评论(0) 推荐(2)

学习社区以及网站总结

摘要：一文档1 java教程2 python基础教程3 python3基础教程4 Linux基础教程5 Eclipse 教程6 google上网代理 7 IT笔试题库8 猎聘网（求职）9 人工智能资料10 active learning11 在线编码转换二视频1 51cto在线视频2 极客学院在线教程阅读全文

posted @ 2015-11-01 19:04 伏草惟存阅读(364) 评论(0) 推荐(0)

【TortoiseSVN使用教程】

摘要：TortoiseSVN使用教程TortoiseSVN是一个SVN的客户端1.Checkout Repository首先要Checkout服务器端的Repository，所谓的Checkout就是指获得服务器端指定的Repository。存储的所有文件这个 Checkout和Visual Sourc... 阅读全文

posted @ 2014-08-07 22:24 伏草惟存阅读(13599) 评论(0) 推荐(1)

【工具】动软代码生成器连接数据库

摘要：在软件开发中，为了提高软件开发的时间成本，代码生成器显得尤为重要，下面主要以图示步骤安装以及使用东软代码生成器： -------------------------------------------------------------------------------- 东软代码生成器的下载地址为：http://www.duote.com/soft/14379.html 具体配置如下：阅读全文

posted @ 2013-03-16 17:36 伏草惟存阅读(5826) 评论(2) 推荐(1)

【工具】VS项目中导出导入模板

摘要：对导出模板，你已经知道整体操作。之前本人开发中并不知道有这么便利的方法开发。是在最近实习中，研究公司代码中学到的。这种操作在本例中还远远没有显示其便利性。如果在三层架构开发中。我们BLL或者DAL层假如有数十数百个数据操作，并且这个操作类界面设计和功能类似。那么，如果手动处理将花费你很多时间，这个模板导出方法，大大节约你都界面设计时间和类以及方法封装时间。只需要在后台cs代码中修改部分逻辑或者sql语句就轻松完成。阅读全文

posted @ 2013-03-16 16:59 伏草惟存阅读(7559) 评论(1) 推荐(4)

随笔分类 - Tools