Loading

12 2021 档案

摘要:Topic: Naive Bayes 求最优解 (closed-form) MLE (最大似然) Lagrange Multiplier Method (拉格朗日乘数法) Solve for Naive Bayes 讲解朴素贝叶斯模型的数学原理。 求极值 例题:\(f(x)=x^2-2x-3\) 1 阅读全文
posted @ 2021-12-29 11:59 活用数据 阅读(250) 评论(0) 推荐(0)
摘要:Two Main Branches of Learning 学习系统的两个方向: 专家系统:符号主义,基于规则来实现,目前仍然有在使用。适合数据量很少甚至没有的时候。 基于概率统计的系统:连接主义,基于学习的方式来实现,比如机器学习,深度学习。适合拥有大量数据的情况。 虽然目前最火的是基于概率统计的 阅读全文
posted @ 2021-12-29 11:57 活用数据 阅读(489) 评论(0) 推荐(0)
摘要:通过leetcode上面的5道基础动态规划题目,讲解求解动态规划问题的思路。 定义 对于动态规划问题,通常需要做3件事情: 问题目标 状态的定义:\(opt[n]\) 状态转移方程:\(opt[n] = best\_of(opt[n-1], opt[n-2], ...)\) 最大子序和 给定一个整数 阅读全文
posted @ 2021-12-29 11:56 活用数据 阅读(80) 评论(0) 推荐(0)
摘要:Language Model (语言模型) Noisy Channel Model \[ p(text|source) \propto p(source|text)p(text) \] $\propto$符号表示成正比,公式根据Bayes定理得出,目标是找到使得$p(text|source)$概率最 阅读全文
posted @ 2021-12-29 11:53 活用数据 阅读(382) 评论(0) 推荐(0)
摘要:Q&A System Introduction (问答系统介绍) Q:能否根据语料库搭建一个智能客服系统(问答系统)? 基于搜索的问答系统 基于搜索的问答系统的解决思路:根据用户输入问题,从语料库中找到相似度最高的问题,返回相对应的答案作为回答。 简单流程: 基于搜索的问答系统 vs 基于知识图谱的 阅读全文
posted @ 2021-12-29 11:51 活用数据 阅读(876) 评论(0) 推荐(0)
摘要:前面我们已经讲解了线性回归和逻辑回归算法,但是当我们将这些算法应用到实际问题中时,有可能会出现过拟合问题(overfitting problem),导致效果很差,我们可以通过正则化来处理过拟合问题。 The Problem of Overfitting 主要介绍了什么是过拟合。 Example 以我 阅读全文
posted @ 2021-12-29 10:09 活用数据 阅读(94) 评论(0) 推荐(0)
摘要:本章主要通过一个应用实例——图片文字识别(Photo OCR),来讲解一个完整的机器学习问题中的相关概念。 Problem description and pipeline 本节主要讲解了什么是OCR,以及机器学习中流水线/管道(pipeline)的概念。 The Photo OCR problem 阅读全文
posted @ 2021-12-28 22:31 活用数据 阅读(358) 评论(0) 推荐(0)
摘要:本章主要讲解如何将大规模数据集运用到机器学习算法。 Learning with large datasets 从上面这幅图我们可以知道,数据集的规模往往比算法更重要,也就是说采用大数据量训练普通算法,效果也会比只拥有少量数据的优秀算法更好。 而大数据应用在机器学习算法上面最常见的问题就是运算量的问题 阅读全文
posted @ 2021-12-28 22:30 活用数据 阅读(189) 评论(0) 推荐(0)
摘要:本章主要讲解机器学习中的一个重要应用——推荐系统。 Problem formulation 本节课以预测电影评分为例,介绍了什么是推荐系统。 我们有5部电影和4个用户,要求用户从0-5对电影打分: 注:?表示用户没有打分的电影,也就是需要我们预测的电影。 前3部电影是爱情片,后2部电影是动作片,可以 阅读全文
posted @ 2021-12-28 22:29 活用数据 阅读(204) 评论(0) 推荐(1)
摘要:本章主要介绍异常检测(Anomaly detection)问题,这是机器学习算法的一个常见应用。这种算法的有趣之处在于,它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。 Problem motivation 主要介绍了什么是异常检测,以及其应用。 Anomaly detec 阅读全文
posted @ 2021-12-28 22:22 活用数据 阅读(401) 评论(0) 推荐(0)
摘要:本章主要讲解第二类无监督学习问题——降维。 Motivation I: Data Compression 本节课主要讲解降维的第一个作用——数据压缩。 数据压缩不仅能够降低对内存或磁盘空间的占用,更重要的是能加快我们的学习算法。 假设我们有两个特征,$x_1$用厘米表示,$x_2$用英寸表示,显然这 阅读全文
posted @ 2021-12-28 22:21 活用数据 阅读(278) 评论(0) 推荐(0)
摘要:Unsupervised learning introduction 通过和监督学习进行对比,简单介绍了无监督学习。 在一个监督学习问题中,我们的训练集是有标签(y)的,我们需要据此训练假设函数,来拟合出一个决策边界。 而在无监督学习问题中,我们的训练集是没有任何标签的,我们需要算法自己从这些数据中 阅读全文
posted @ 2021-12-28 22:19 活用数据 阅读(312) 评论(0) 推荐(0)
摘要:本章主要讲解支持向量机算法,也是最后一个详细讲解的监督学习算法。 Optimization objective 从逻辑回归算法引入到支持向量机(SVM,support vector machine)算法,讲解了支持向量机的数学定义。 Alternative view of logistic regr 阅读全文
posted @ 2021-12-28 12:24 活用数据 阅读(180) 评论(0) 推荐(0)
摘要:本章主要讲解机器学习系统的设计,给出一些构建复杂机器学习系统的建议,可以在构建大型机器学习系统时节约时间。 Prioritizing what to work on: Spam classification example 本章以构建一个垃圾邮件分类器为例讲解机器学习系统设计。 下面有两封邮件,左边 阅读全文
posted @ 2021-12-28 12:23 活用数据 阅读(125) 评论(0) 推荐(0)
摘要:Deciding what to try next 本章节主要讲解了在应用机器学习时的一些建议,重点关注的问题是假如你在开发一个机器学习系统,或者尝试改进一个机器学习系统的性能,你应该如何决定接下来选择哪条道路。 Debugging a learning algorithm 为了解释这个问题,我们继 阅读全文
posted @ 2021-12-28 12:20 活用数据 阅读(96) 评论(0) 推荐(0)
摘要:本章主要讲解如何求解神经网络的权重(参数)。 Cost Function 主要讲解了神经网络的代价函数(分类问题中的)。 Neural Network(Classification) 引入一些标记方法方便后续讨论: 假设神经网络有$m$个训练样本,每个训练样本包含一组输入特征$x$和一组输出信号$y 阅读全文
posted @ 2021-12-28 12:18 活用数据 阅读(321) 评论(0) 推荐(0)
摘要:当我们的特征值太多,模型太复杂时,之前学习的线性回归和逻辑回归都会遇到计算负荷太大的问题,所以我们需要学习神经网络。 Non-linear Hypotheses 本节课程主要通过示例讲解了引入神经网络的实际意义。 之前的一个例子: 在这个例子中,由于我们只有$x_1$和$x_2$两个特征值,所以即使 阅读全文
posted @ 2021-12-28 12:17 活用数据 阅读(103) 评论(0) 推荐(0)
摘要:之前讲解了机器学习中的回归问题,本章节主要讲解了另外一类问题——分类问题。 Classification 本节课引入了机器学习的另外一类问题——分类问题。 分类问题的应用: Email: Spam / Not Spam? Online Transactions: Fraudulent (Yes / 阅读全文
posted @ 2021-12-28 12:13 活用数据 阅读(215) 评论(0) 推荐(0)
摘要:Martrices and Vectors 主要介绍矩阵和向量的概念。 Martrices 矩阵:矩形的数字阵列,通常用大写字母表示。 Matrix: Rectangular array of numbers. 矩阵的维数:行数 \(\times\) 列数 Dimension of matrix: 阅读全文
posted @ 2021-12-28 12:11 活用数据 阅读(408) 评论(0) 推荐(0)
摘要:Model Representation 主要介绍单变量线性回归算法,以及监督学习的流程。 假如我们想要预测房价,那么,我们需要做的一件事就是构建一个模型,也许是一条直线,这样我们就能够通过房子的大小来预测对应的房价。 在监督学习中我们有一个数据集,这个数据集被称为训练集(Training Set) 阅读全文
posted @ 2021-12-28 12:09 活用数据 阅读(222) 评论(0) 推荐(0)
摘要:Welcome 简单介绍了什么是机器学习,以及机器学习能做什么。 Machine Learning AI的一个领域 计算机的一种新能力 Examples: Database mining 由于自动化程序以及Web的发展,产生了大量的数据,所以需要机器学习从中挖掘出重要的信息。 Application 阅读全文
posted @ 2021-12-28 12:08 活用数据 阅读(97) 评论(0) 推荐(0)
摘要:用神经网络解决分类问题 神经网络也称为人工神经网络(Artificial Neural Network, ANN)。 神经网络的4个概念: 神经元 兴奋传递 激活函数 反向传播机制 用圆圈表示神经元,箭头表示数据流向,一个神经元如图所示: 上图表示的是从一个方向获取数据,经过神经元处理后,将结果数据 阅读全文
posted @ 2021-12-25 19:10 活用数据 阅读(662) 评论(0) 推荐(0)
摘要:在机器学习算法的实际应用中,更值得我们关注的其实是如何提高预测结果的准确率。选择不同的模型,调节模型的各种参数,是最容易想到的方法,但目前业界使用更多的其实是集成学习方法。集成学习方法是关注的不是模型的内部结构,而是不同模型之间的组织关系。 集成学习方法:三个臭皮匠胜过诸葛亮 **集成学习(Ense 阅读全文
posted @ 2021-12-25 19:08 活用数据 阅读(392) 评论(0) 推荐(0)
摘要:本章讲解无监督学习中最为经典的问题——聚类问题。 用投票表决实现“物以类聚” 标注数据不足始终是监督学习的一大问题,因此业界逐渐开始探索将监督学习和无监督学习结合在一起,首先通过聚类等无监督学习的算法处理数据,通过各种假设和结合聚类结果来给数据打标签,然后再把这些数据喂入监督学习算法进行建模训练,使 阅读全文
posted @ 2021-12-25 08:57 活用数据 阅读(379) 评论(0) 推荐(0)
摘要:SVM:线性分类器的“王者” 支持向量机兼具形式优美和高效好用,受到学术界和工业界的一致好评。 支持向量机中的三个重要概念: 最大间隔 高维映射 核方法 距离是不同类别的天然间隔 在分类的时候,为了提高鲁棒性,我们需要给正负类两边都多留点空间,使得分割线距离两边都达到最大间隔。 何为“支持向量” 支 阅读全文
posted @ 2021-12-25 08:56 活用数据 阅读(711) 评论(0) 推荐(0)
摘要:决策树分类:用if-else进行选择 目前数据竞赛中排名靠前的算法除了深度学习系列之外,机器学习算法基本上都是选用XGBoost或Lightgbm算法,而这两者的基石都是决策树分类算法。 决策树的简单来说就是if-else层层相套的判断结构,同时也是数据结构中典型的树形结构。决策树这一类算法,基本原 阅读全文
posted @ 2021-12-25 08:55 活用数据 阅读(402) 评论(0) 推荐(0)
摘要:朴素贝叶斯分类算法应该是统计学味道最浓的一款算法。统计学有两大学派,分别是频率学派和贝叶斯学派。 朴素贝叶斯分类算法的核心要义正是贝叶斯学派中的贝叶斯公式。 朴素贝叶斯:用骰子选择 贝叶斯公式的4个重要概念: 条件概率 先验概率 后验概率 似然度 朴素贝叶斯(Naive Bayes)由两部分组成,” 阅读全文
posted @ 2021-12-25 08:54 活用数据 阅读(320) 评论(0) 推荐(0)
摘要:参考资料: 数据科学中常见的9种距离度量方法,内含欧氏距离、切比雪夫距离等 KNN分类算法相对另类,不太依赖数学。 KNN分类算法:用多数表决进行分类 KNN算法中最重要的两个概念: 多数表决 距离 以鸢尾花样本为例,随机选取了两个特征,用不同颜色表示不同的鸢尾花类别: import matplot 阅读全文
posted @ 2021-12-25 08:53 活用数据 阅读(418) 评论(0) 推荐(0)
摘要:Logistic回归:换上“S型曲线马甲”的线性回归 Logistic Regression = Linear Regression + Logistic(Sigmoid) Function 分类问题 分类问题根据要划分的类别数量,可分为: 二元分类(Binary Classification) 多 阅读全文
posted @ 2021-12-25 08:52 活用数据 阅读(417) 评论(0) 推荐(0)
摘要:机器学习一共有两条主线: 问题 模型 问题提出要求,模型给予解决。 线性回归 线性回归:用线性模型来解决回归问题。 线性回归的重点: 回归问题 线性方程 偏差度量 权重更新:优化方法 线性回归的算法原理 基本思路 机器学习的核心概念:在错误中学习。这需要两个步骤,首先知道偏离了多少,然后向减少偏差的 阅读全文
posted @ 2021-12-25 08:51 活用数据 阅读(277) 评论(0) 推荐(0)
摘要:模块和包 如果我们想在编写的代码里重用一些函数的话,就需要用到模块(Module),一个.py文件就称之为一个模块。 使用模块还可以避免函数名和变量名冲突,相同名字的函数和变量完全可以分别存在不同的模块中。为了避免模块名的冲突,Python又引入了按照目录来组织模块的方法,称为包(Package)。 阅读全文
posted @ 2021-12-24 21:44 活用数据 阅读(108) 评论(0) 推荐(0)
摘要:参考: Airflow 入门及使用 官方文档 Airflow 是什么? 使用Python语言编写的 data pipeline 调度和监控工作流的平台,是通过DAG(Directed acyclic graph 有向无环图)来管理任务流程的任务调度工具。 Airflow 解决哪些问题? cronta 阅读全文
posted @ 2021-12-24 21:39 活用数据 阅读(1046) 评论(0) 推荐(0)
摘要:爬虫基础概念 数据从何而来? 数据有以下的一些来源途径: 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。 数据管理咨询公司 阅读全文
posted @ 2021-12-24 21:34 活用数据 阅读(356) 评论(0) 推荐(0)
摘要:正则表达式的概念 概念 正则表达式(regular expression,regex,RE):是用来简洁表达一组字符串的表达式。 应用:最主要应用在字符串匹配。 使用 没编译前在Python中只是一个字符串,只有经过编译才是有效的表达式。 正则表达式的语法 常用操作符 正则表达式经典实例 匹配IP地 阅读全文
posted @ 2021-12-24 21:00 活用数据 阅读(517) 评论(0) 推荐(0)
摘要:本文主要介绍了自然语言处理领域中文本表示的一个重要算法:TF-IDF算法。包括其基本概念,以及简单的代码实现。 TF-IDF概述 什么是TF-IDF? 词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种常用于文本处理的统计方法, 阅读全文
posted @ 2021-12-24 17:07 活用数据 阅读(220) 评论(0) 推荐(0)
摘要:redis是key-value的数据,所以每个数据都是一个键值对。 键的类型是字符串 值的类型分为五种 字符串string 哈希hash 列表list 集合set 有序集合zset String 字符串 简介 string是redis最基本的类型 最大能存储512MB数据 string类型是二进制安 阅读全文
posted @ 2021-12-24 09:44 活用数据 阅读(53) 评论(0) 推荐(0)
摘要:redis的配置文件redis.conf存放在/usr/local/etc路径下。 是否以守护进程运行 如果以守护进程运行,则不会在命令行阻塞,类似于服务 如果以非守护进程运行,则当前终端被阻塞,无法使用 推荐改为yes,以守护进程运行 使用vim打开redis.conf文件,搜索到daemoniz 阅读全文
posted @ 2021-12-24 09:43 活用数据 阅读(143) 评论(0) 推荐(0)
摘要:参考资料:Mac安装Redis,原来就是这么简单 使用Hombrew安装命令 brew install redis 查看安装及配置文件 redis的配置文件redis.conf存放在/usr/local/etc路径下。 启动redis服务 redis-server 成功启动: 前台启动的话,只需要 阅读全文
posted @ 2021-12-24 09:42 活用数据 阅读(22) 评论(0) 推荐(0)
摘要:随着访问量的上升,网站的数据库性能出现了问题,于是nosql被设计出来. NoSQL,全名为Not Only SQL,指的是非关系型的数据库. 优缺点 优点: 高可扩展性 分布式计算 低成本 架构的灵活性,半结构化数据 没有复杂的关系 缺点: 没有标准化 有限的查询功能(到目前为止) 最终一致是不直 阅读全文
posted @ 2021-12-24 09:41 活用数据 阅读(31) 评论(0) 推荐(0)
摘要:参考资料: 《对比Excel,轻松学习Python数据分析》 《Intermediate Python》 本文主要简单介绍了Python中非常强大的map()函数和pandas中类似的apply()和applymap()函数。 map() map(function, args) map()函数对序列 阅读全文
posted @ 2021-12-24 09:38 活用数据 阅读(467) 评论(0) 推荐(0)
摘要:索引和切片 字符串实际上就是字符的数组,所以也可以用下标进行索引和切片。 索引 索引:选取其中一个元素。 切片 切片:选取其中一片元素。 str[起点(包含起点元素) : 终点(不包含终点元素) : 步长(默认为1)] 默认步长切片 指定步长切片 逆序输出 写法一: 写法二: 字符串常用方法 fin 阅读全文
posted @ 2021-12-24 09:36 活用数据 阅读(93) 评论(0) 推荐(0)
摘要:变量与数据类型 变量 变量:存储东西的一个容器。 varibleName = value type(varibleName) # type( )查看变量的数据类型 这种变量本身类型不固定的语言就称为动态语言,与之相对的是静态语言,如Java、C,静态语言在定义变量的时候就需要指定数据类型。 数据类型 阅读全文
posted @ 2021-12-24 09:36 活用数据 阅读(123) 评论(0) 推荐(0)
摘要:Python有4种内置数据结构:列表,字典,元组,集合。 不同的数据类型之间可以进行类型转换以达到特殊目的,比如将list先转成set,以达到去重的目的,之后再转回list。 列表(List) 列表的特征 列表中的每一个元素都是可变的; 列表其实是一个栈; 列表中的元素是有序的,也就是说每一个元素都 阅读全文
posted @ 2021-12-24 09:35 活用数据 阅读(214) 评论(0) 推荐(0)
摘要:程序的三大执行流程 顺序执行 选择执行(采用条件语句) 循环执行(采用循环语句) 条件语句 if 语句 if score > 60: print("B") # 当有一个条件满足的时候,即退出判断,不会继续进行判断 elif score > 50: print("B-") else: print("C 阅读全文
posted @ 2021-12-24 09:34 活用数据 阅读(54) 评论(0) 推荐(0)
摘要:数据读写 文件的作用 能把运行在内存的一些数据存储到硬盘上。 文件路径 文件路径的书写格式 以下三种书写格式都符合Python语法: 文件内容的操作 打开、新建 open( ) 文件存在则打开,文件不存在则新建。 f = open("文件名.后缀","操作方式") # 文件需要与程序位于同一文件夹中 阅读全文
posted @ 2021-12-24 09:33 活用数据 阅读(84) 评论(0) 推荐(0)
摘要:问题1 问题描述:在一个文件夹中,有着普通文件以及文件夹,那么我们如何做到删除全部文件夹而不删除文件呢? 如下图所示,我们想要删除test文件夹中的所有文件夹,而保留其他文件: Version 1 看到这个问题的第一刻,我想到的是文件夹没有后缀名,其他文件有后缀名,而拥有后缀名则意味着文件名称里面会 阅读全文
posted @ 2021-12-24 09:32 活用数据 阅读(488) 评论(0) 推荐(0)
摘要:在使用Matplotlib画图时,我遇到了一个尴尬的情况,那就是当x轴的标签名字很长的时候,在绘制图形时,发生了x轴标签互相重叠的情况。 本文主要通过一个简单的示例,探索了以上描述问题的4种解决方法。 示例 import pandas as pd import matplotlib.pyplot a 阅读全文
posted @ 2021-12-24 09:31 活用数据 阅读(706) 评论(0) 推荐(0)
摘要:参考文章:《特征工程入门与实践》——第5章 特征选择:对坏属性说不 信用卡逾期数据集:credit card clients Data Set 本文代码开源链接: FeatureSelection 本文主要以信用卡逾期分类任务作为案例,讲解如何使用sklearn进行特征选择。 **特征选择(Feat 阅读全文
posted @ 2021-12-24 09:29 活用数据 阅读(374) 评论(0) 推荐(0)
摘要:李宏毅机器学习系列文章目录 人工智能是人类长远以来的一个目标,而机器学习是实现这个目标的其中一种方法,深度学习则是机器学习的一种方法。 生物学知识告诉我们,生物的行为取决于两件事,一个是后天学习的结果,另外一个就是先天的本能。 在没有机器学习之前,人们是通过赋予机器先天的本能的方式来实现人工智能的, 阅读全文
posted @ 2021-12-24 09:28 活用数据 阅读(328) 评论(0) 推荐(0)
摘要:本篇文章主要介绍如何使用pynmea2库解析传感器的GPS信号,以及如何使用folium库绘制GPS轨迹图。 GPS数据解析 参考资料: NMEA pynmea2 根据NMEA协议,我们从传感器上接收到的GPS经纬度数据格式如下: 例:$GPRMC,024813.640,A,3158.4608,N, 阅读全文
posted @ 2021-12-24 09:26 活用数据 阅读(804) 评论(0) 推荐(0)
摘要:提出问题 本文主要针对以下两个问题进行探讨: 如果投资者“不幸”从最高点开始定投指数基金,那么是否还能盈利? 周定投和月定投哪个更好? 获取数据 注意:本文为了简单起见,直接用指数代替了指数基金。 Step1 打开网址JoinQuant聚宽,登录帐号 Step2 进入研究环境 进入研究环境之后,会发 阅读全文
posted @ 2021-12-24 09:22 活用数据 阅读(535) 评论(0) 推荐(0)
摘要:本文主要介绍如何通过预先设定好的语法规则以及单词,通过Python来自动生成一些句子。 解析语法 在生成句子之前,我们需要先告诉机器生成句子的语法。 因此,我们先定义一个简单的语法: simple_grammar = """ sentence => noun_phrase verb_phrase n 阅读全文
posted @ 2021-12-23 22:44 活用数据 阅读(1391) 评论(0) 推荐(0)
摘要:本文主要通过榨汁机和果汁的例子,讲解简单工厂模式及其Python代码实现。 本文大纲: 正文开始 工厂模式设计思想 在日常生活中,我们通过榨汁机榨汁,加入不同的水果就产生不同的果汁,例如苹果汁,橙汁等。这一过程就如同一个工厂一样,我们加入不同的原料,就会生产出不同的产品,这就是程序设计中工厂模式的概 阅读全文
posted @ 2021-12-23 22:42 活用数据 阅读(70) 评论(0) 推荐(0)