Python - 随笔分类 - 伏草惟存

Python 和 Elasticsearch 构建简易搜索

摘要：件开发最大的麻烦事之一就是环境配置，操作系统设置，各种库和组件的安装。只有它们都正确，软件才能运行。如果从一种操作系统里面运行另一种操作系统，通常我们采取的策略就是引入虚拟机，比如在 Windows 系统里面运行 Linux 系统。这种方式有个很大的缺点就是资源占用多、冗余步骤多、启动慢。目前最流行的 Linux 容器解决方案之一就是Docker，它最大优点就是轻量、资源占用少、启动快。本文从什么是Docker？Docker解决什么问题？有哪些好处？如何去部署实现去全面介绍。阅读全文

posted @ 2019-05-24 17:34 伏草惟存阅读(4467) 评论(0) 推荐(1) 编辑

Docker如何部署Python项目

摘要：软件开发最大的麻烦事之一就是环境配置，操作系统设置，各种库和组件的安装。只有它们都正确，软件才能运行。如果从一种操作系统里面运行另一种操作系统，通常我们采取的策略就是引入虚拟机，比如在 Windows 系统里面运行 Linux 系统。这种方式有个很大的缺点就是资源占用多、冗余步骤多、启动慢。目前最流行的 Linux 容器解决方案之一就是Docker，它最大优点就是轻量、资源占用少、启动快。本文从什么是Docker？Docker解决什么问题？有哪些好处？如何去部署实现去全面介绍。阅读全文

posted @ 2019-05-24 09:09 伏草惟存阅读(41818) 评论(3) 推荐(14) 编辑

数据预处理之抽取文本信息（2）

摘要：大数据技术与我们日常生活越来越紧密，要做大数据，首要解决数据问题。原始数据存在大量不完整、不一致、有异常的数据，严重影响到数据建模的执行效率，甚至可能导致模型结果的偏差，因此要数据预处。数据预处理主要是将原始数据经过文本抽取、数据清理、数据集成、数据处理、数据变换、数据降维等处理后，不仅提高了数据质量，而且更好的提升算法模型性能。数据预处理在数据挖掘、自然语言处理、机器学习、深度学习算法中起着重要的作用。（本文原创，转载必须注明出处.）阅读全文

posted @ 2018-12-28 10:29 伏草惟存阅读(3186) 评论(1) 推荐(1) 编辑

Python数据预处理：机器学习、人工智能通用技术（1）

摘要：大数据技术与我们日常生活越来越紧密，要做大数据，首要解决数据问题。原始数据存在大量不完整、不一致、有异常的数据，严重影响到数据建模的执行效率，甚至可能导致模型结果的偏差，因此要数据预处。数据预处理主要是将原始数据经过文本抽取、数据清理、数据集成、数据处理、数据变换、数据降维等处理后，不仅提高了数据质量，而且更好的提升算法模型性能。数据预处理在数据挖掘、自然语言处理、机器学习、深度学习算法中起着重要的作用。（本文原创，转载必须注明出处.）阅读全文

posted @ 2018-12-24 17:43 伏草惟存阅读(2614) 评论(1) 推荐(1) 编辑

一步步教你轻松学奇异值分解SVD降维算法

摘要：奇异值分解（singular value decomposition）是线性代数中一种重要的矩阵分解，在生物信息学、信号处理、金融学、统计学等领域有重要应用，SVD都是提取信息的强度工具。在机器学习领域，很多应用与奇异值都有关系，比如推荐系统、数据压缩（以图像压缩为代表）、搜索引擎语义层次检索的LSI等等。（本文原创，转载必须注明出处.）阅读全文

posted @ 2018-10-24 09:04 伏草惟存阅读(2682) 评论(0) 推荐(2) 编辑

一步步教你轻松学支持向量机SVM算法之案例篇2

摘要：支持向量机即SVM(Support Vector Machine) ，是一种监督学习算法，属于分类的范畴。首先，支持向量机不是一种机器，而是一种机器学习算法。在数据挖掘的应用中，与无监督学习的聚类相对应和区别。广泛应用于机器学习，计算机视觉和数据挖掘当中。（本文原创，转载必须注明出处.）阅读全文

posted @ 2018-10-23 15:37 伏草惟存阅读(2514) 评论(0) 推荐(2) 编辑

一步步教你轻松学支持向量机SVM算法之理论篇1

摘要：支持向量机即SVM(Support Vector Machine) ，是一种监督学习算法，属于分类的范畴。首先，支持向量机不是一种机器，而是一种机器学习算法。在数据挖掘的应用中，与无监督学习的聚类相对应和区别。广泛应用于机器学习，计算机视觉和数据挖掘当中。（本文原创，转载必须注明出处.）阅读全文

posted @ 2018-10-23 09:09 伏草惟存阅读(2425) 评论(1) 推荐(2) 编辑

一步步教你轻松学主成分分析PCA降维算法

摘要：主成分分析（英语：Principal components analysis，PCA）是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。常常应用在文本处理、人脸识别、图片识别、自然语言处理等领域。可以做在数据预处理阶段非常重要的一环，本文首先对基本概念进行介绍，然后给出PCA算法思想、流程、优缺点等等。最后通过一个综合案例去实现应用。（本文原创，转载必须注明出处.）阅读全文

posted @ 2018-10-22 16:32 伏草惟存阅读(3855) 评论(0) 推荐(2) 编辑

一步步教你轻松学关联规则Apriori算法

摘要：先验算法（Apriori Algorithm）是关联规则学习的经典算法之一，常常应用在商业等诸多领域。本文首先介绍什么是Apriori算法，与其相关的基本术语，之后对算法原理进行多方面剖析，其中包括思路、原理、优缺点、流程步骤和应用场景。接着再通过一个实际案例进行语言描述性逐步剖析。至此，读者基本了解该算法思想和过程。紧接着我们进行实验，重点的频繁项集的生成和关联规则的生成。最后我们采用综合实例进行实际演示。（本文原创，转载必须注明出处.）阅读全文

posted @ 2018-10-22 09:56 伏草惟存阅读(7629) 评论(0) 推荐(2) 编辑

一步步教你轻松学K-means聚类算法

摘要：导读：k-均值算法（英文：k-means clustering），属于比较常用的算法之一，文本首先介绍聚类的理论知识包括什么是聚类、聚类的应用、聚类思想、聚类优缺点等等；然后通过k-均值聚类案例实现及其可视化有一个直观的感受，针对算法模型进行分析和结果优化提出了二分k-means算法。最后我们调用机器学习库函数，很短的代码完成聚类算法。（本文原创，转载必须注明出处：决策树模型算法研究与案例分析）阅读全文

posted @ 2018-09-13 09:13 伏草惟存阅读(30080) 评论(0) 推荐(7) 编辑

一步步教你轻松学逻辑回归模型算法

摘要：导读：逻辑回归（Logistic regression）即逻辑模型，属于常见的一种分类算法。本文将从理论介绍开始，搞清楚什么是逻辑回归、回归系数、算法思想、工作原理及其优缺点等。进一步通过两个实际案例深化理解逻辑回归，以及在工程应用进行实现。（本文原创，转载必须注明出处：决策树模型算法研究与案例分析）阅读全文

posted @ 2018-09-06 16:32 伏草惟存阅读(4761) 评论(0) 推荐(1) 编辑

一步步教你轻松学朴素贝叶斯模型算法Sklearn深度篇3

摘要：朴素贝叶斯模型是机器学习常用的模型算法之一，其在文本分类方面简单易行，且取得不错的分类效果。所以很受欢迎，对于朴素贝叶斯的学习，本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导，为了加深理解，采用一个维基百科上面性别分类例子进行形式化描述。然后通过编程实现朴素贝叶斯分类算法，并在屏蔽社区言论、垃圾邮件、个人广告中获取区域倾向等几个方面进行应用。由于篇幅较长，采用理论理解、案例实现、sklearn优化三个部分进行学习。（本文原创，转载必须注明出处：朴素贝叶斯模型算法研究与实例分析）阅读全文

posted @ 2018-09-04 15:47 伏草惟存阅读(4524) 评论(0) 推荐(1) 编辑

一步步教你轻松学朴素贝叶斯模型实现篇2

摘要：朴素贝叶斯模型是机器学习常用的模型算法之一，其在文本分类方面简单易行，且取得不错的分类效果。所以很受欢迎，对于朴素贝叶斯的学习，本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导，为了加深理解，采用一个维基百科上面性别分类例子进行形式化描述。然后通过编程实现朴素贝叶斯分类算法，并在屏蔽社区言论、垃圾邮件、个人广告中获取区域倾向等几个方面进行应用，由于篇幅较长，采用理论理解、案例实现、sklearn优化三个部分进行学习。（本文原创，转载必须注明出处：朴素贝叶斯模型算法研究与实例分析）阅读全文

posted @ 2018-09-04 09:05 伏草惟存阅读(2567) 评论(0) 推荐(3) 编辑

一步步教你轻松学朴素贝叶斯模型算法理论篇1

摘要：朴素贝叶斯模型是机器学习常用的模型算法之一，其在文本分类方面简单易行，且取得不错的分类效果。所以很受欢迎，对于朴素贝叶斯的学习，本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导，为了加深理解，采用一个维基百科上面性别分类例子进行形式化描述。然后通过编程实现朴素贝叶斯分类算法，并在屏蔽社区言论、垃圾邮件、个人广告中获取区域倾向等几个方面进行应用，包括创建数据集、数据预处理、词集模型和词袋模型、朴素贝叶斯模型训练和优化等。然后结合复旦大学新闻语料进行朴素贝叶斯的应用。最后，大家熟悉其原理和实现之后，采用机器学习sklearn包进行实现和优化。由于篇幅较长，采用理论理解、案例实现、sklearn优化三个部分进行学习。（本文原创，转载必须注明出处：朴素贝叶斯模型算法研究与实例分析）阅读全文

posted @ 2018-09-03 17:54 伏草惟存阅读(4359) 评论(0) 推荐(2) 编辑

一步步教你轻松学决策树算法

摘要：决策树算法是一种基本的分类与回归方法，是最经常使用的算法之一。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是基于规则的集合。本文首先介绍决策树定义、工作原理、算法流程、优缺点等，然后结合案例进行分析。（本文原创，转载必须注明出处：决策树模型算法研究与案例分析）阅读全文

posted @ 2018-08-27 16:34 伏草惟存阅读(4895) 评论(2) 推荐(3) 编辑

一步步教你轻松学KNN模型算法

摘要：导读：机器学习算法中KNN属于比较简单的典型算法，既可以做聚类又可以做分类使用。本文通过一个模拟的实际案例进行讲解。整个流程包括：采集数据、数据格式化处理、数据分析、数据归一化处理、构造算法模型、评估算法模型和算法模型的应用。（本文原创，转载必须注明出处：基于KNN分类算法模型为案例进行机器学习研究）阅读全文

posted @ 2018-07-24 08:52 伏草惟存阅读(14680) 评论(0) 推荐(1) 编辑

数据分析：基于Python的自定义文件格式转换系统

摘要：导读：随着大数据的快速发展，自然语言处理、数据挖掘、机器学习技术应用愈加广泛。针对大数据的预处理工作是一项庞杂、棘手的工作。首先数据采集和存储，尤其高质量数据采集往往不是那么简单。采集后的信息文件格式不一，诸如pdf，doc，docx，Excel，ppt等多种形式。然而最常见便是txt、pdf和word类型的文档。本文主要对pdf和word文档进行文本格式转换成txt。格式一致化以后再进行后续预处理工作。笔者采用一些工具转换效果都不理想，于是才出现本系统的研究与实现。（本文原创，转载必须注明出处：数据分析：基于Python的自定义文件格式转换系统）阅读全文

posted @ 2018-07-18 17:29 伏草惟存阅读(5939) 评论(2) 推荐(3) 编辑

70个注意的Python小Notes

摘要：在阅读python相关书籍中，对其进行简单的笔记纪要。旨在注意一些细节问题，在今后项目中灵活运用，并对部分小notes进行代码标注。阅读全文

posted @ 2018-07-09 11:08 伏草惟存阅读(1541) 评论(2) 推荐(5) 编辑

【秒懂】号称最为简明实用的Django上手教程（下）

摘要：摘要：上文号称【最为简明实用的Django上手教程】介绍了django基本概念、配置和相关操作。相信通过上文的阅读，基本明白django运行机制和操作。假设你现在通过dome和相关书籍已经基本理解django这台机器的运行。下一步如何像asp.net、Jsp，PHP等常规网站开发，进行前后台交互呢？又如何采用较为简洁美观的前端框架进行设计呢？假设你需要配置多个数据库怎么办？静态文件单独存放需要哪些配置？针对这些配置有哪些便利？最后，假设你又是一名对数据开发很感兴趣的，且学过一些机器学习，数据挖掘，自然语言处理，云计算等技术之一，想挖掘分析数据并进行可视化，怎么办？本文就是针对这些问题开始的。（本文原创编著，转载注明出处:号称最为简明实用的Django上手教程（下））阅读全文

posted @ 2017-08-25 08:52 伏草惟存阅读(2577) 评论(0) 推荐(5) 编辑

【秒懂】号称最为简明实用的Django上手教程

摘要：摘要：Django的学习教程也是分门别类，形式不一。或是较为体系的官方文档，或者风格自由的博客文档，或者偏向实例的解析文档。即使官方文档，章节较多，文字阐述累赘，有时候我们只是关注某个功能用法而已，而自由博文最大的问题是互相抄袭，结构混乱，涵盖面小且错误较为明显。由此，本文结合学习期间资料梳理和项目开发经验，整理出一套较为常用实用的文章。适用于(1)新手入门，无论C#，C，java,Python，R等具有任何编程语言基础均可；(2)想快速了解Django并可以快速开发上手者。(3)适用于作为资料查询，技术点参考。（本文原创编著，转载注明出处:号称最为简明实用的Django上手教程）阅读全文

posted @ 2017-08-24 13:38 伏草惟存阅读(8599) 评论(1) 推荐(6) 编辑

随笔分类 - Python