摘要: 思路:使用 图像距离计算,然后 使用K近邻来分类。 使用像素点对应相减的方法(保留绝对值) 这样计算部分准确,部分错误。原因:不知道图像的主体 和 背景。 所以K近邻不适合做图像分类任务。 但神经网络能识别出来。 阅读全文
posted @ 2021-02-04 10:51 月思 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 概念 将图像组合成金字塔的形状(底下大,上面小) 使用场景:特征提取 方法分为 高斯金字塔 拉普拉斯金字塔 一、高斯金字塔 1、向下采样法(缩小) 越采样越少,down sample,|是一个缩小操作; 将 \(G_i\) 与高斯内核卷积 将所有偶数行和列去除 \(\frac{1}{16} * \l 阅读全文
posted @ 2021-02-04 10:48 月思 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 理论 图像阈值分割 利用图像中 要提取的目标区域 与 其背景 在 灰度特性 上的差异,把图像看作 具有不同灰度级的两类区域 (目标区域和背景区域)的组合。 选取一个比较合理的阈值,以确定图像中每个像素点 应该属于目标区域 还是背景区域,从而产生相应的二值图像。 阈值分割法的特点是:适用于 目标与背景 阅读全文
posted @ 2021-02-04 10:43 月思 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 理论 数学形态学(Mathematical morphology) 是一门建立在 格论 和 拓扑学 基础之上的图像分析学科,是 数学形态学图像处理 的基本理论。 其基本的运算包括:腐蚀和膨胀、开运算和闭运算、骨架抽取、极限腐蚀、击中击不中变换、形态学梯度、Top-hat变换、颗粒分析、流域变换等。 阅读全文
posted @ 2021-02-04 10:41 月思 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 理论 伪彩色图像,目前主要用于 高度、压力、密度、湿度等,做彩色数据可视化。 HSV 色度、饱和度、亮度 示例 import cv2 import matplotlib.pyplot as plt img = cv2.imread('lena.jpg') img1 = cv2.applyColorM 阅读全文
posted @ 2021-02-04 10:39 月思 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 一、基本概念 在不改变图像的内容的前提下, 对图像的像素进行空间几何变化; 包括 图像的平移、镜像变换、缩放和旋转等; 假设原始图像的 f(x0, y0),经过几何变化产生的目标图像为 g(x1, y1), 则空间变换(映射)关系为: x1 = s(x0, y0) y1 = t(x0, y0) 那么 阅读全文
posted @ 2021-02-04 10:38 月思 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 一、颜色空间转换 cvtColor(src, code[, dst[, dstCn]]) → dst src:原始图像 code:转换的代码或者标识 返回值:已完成转换的图像 lena = cv2.imread('lena.jpg') lena_gray = cv2.cvtColor('lena.j 阅读全文
posted @ 2021-02-04 10:35 月思 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 色调 色彩外观的基本倾向,面熟了图像色彩模式下 原色的明暗程度; 范围 0-255,共 256 级色调; 对于灰度图,级别为255的时候,是白色; 级别为0 的时候,是黑色;中间是程度不同的灰色; 在 RGB 色彩空间中,色调代表的是红绿蓝三种原色的明暗程度; 以红色为例:有淡红、粉红、玫红、暗红等 阅读全文
posted @ 2021-02-04 10:33 月思 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 一、截取 ROI ROI : region of interest import cv2 img=cv2.imread('dj.jpg') # 封装方法来显示图片 def cv_show(img): cv2.imshow('w title',img) waitret = cv2.waitKey(20 阅读全文
posted @ 2021-02-04 10:31 月思 阅读(371) 评论(0) 推荐(0) 编辑
摘要: flutter 预研 目录flutter 预研开启 Mac 开发桌面应用Dart 语法demos 安装 https://www.jianshu.com/p/603649a02956 开启 Mac 开发桌面应用 Flutter 的 master 默认是关闭 桌面应用的,我们可以使用下面的命令开启: f 阅读全文
posted @ 2021-02-04 10:24 月思 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 关于 spaCy 官网:https://spacy.io 相比 NLTK spacy 速度更快 可以和深度学习结合 安装 (base) $ python -m spacy download en import spacy 加载英文模型,需要先安装模型 $ sudo python -m spacy d 阅读全文
posted @ 2021-02-04 10:22 月思 阅读(1929) 评论(0) 推荐(0) 编辑
摘要: 一、图像读写 1、读取 imread imread(filename[, flags]) → retval flags 相关参数 cv2.IMREAD_COLOR:彩色图像 cv2.IMREAD_GRAYSCALE:灰度图像 0,8位深度,1通道; 1,8位深度,3通道; 2,原深度,1通道 3,原 阅读全文
posted @ 2021-02-04 10:03 月思 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 像素 图片由一个个小格组成,这个小格叫做像素点; 一个像素,是一个很小的图像单元; 单元包含很多信息,其中最重要的就是颜色信息; 图像的颜色范围:0--255; 数值的变化代表颜色深浅的变化 一个像素点由三个值R、G、B组成,每个值的范围为 0--255,表示亮度; 颜色通道 单通道,如 灰度图,值 阅读全文
posted @ 2021-02-04 10:00 月思 阅读(1024) 评论(0) 推荐(0) 编辑
摘要: 怎么训练一个语言模型 1、 语料获取及预处理 billion words:https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark 下载其 training-monolingual 语料 并使用 get_ 阅读全文
posted @ 2021-02-04 09:59 月思 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 文本相似 文本相似:一般是指的,某一文本 doc1与另一文本 doc2的相似程度。 一般可以从两个方面去考察两个文本之间的相似程度:形似(字面相似)和神似(语义相似)。当然这两种相似性也不能够完全割裂开来,只不过可以认为字面相似的文本不一定语义相似,语义相似的文本不一定用词相似。 为了考察文本的相似 阅读全文
posted @ 2021-02-04 09:57 月思 阅读(1008) 评论(0) 推荐(0) 编辑
摘要: 数据清洗 去掉多余空格 去掉不需要特殊字符 去掉一些网站等没用的东西 使用正则,stopwords import re from nltk.corpus import stopwords # 输入数据 s = ' RT @Amila #Test\nTom\'s newly listed Co &am 阅读全文
posted @ 2021-02-04 09:56 月思 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 一、停用词 stopwords 停用词:跟要做的实际主题不相关的文本,在 NPL任务中(信息检索、分类)毫无意义;通常情况下,冠词 和 代词都会被列为;一般歧义不大,移除后影响小。 一般情况下,给定语言的停用词都是人工制定,跨语料库,针对最常见单词的停用词表。停用词表可能使用网站上找到已有的,也可能 阅读全文
posted @ 2021-02-04 09:55 月思 阅读(2137) 评论(0) 推荐(0) 编辑
摘要: 词干提取 stemming 实现功能:如 eating, eaten, ate, eats > eat 一般词干提取器,移除 -s/es, -ing, -ed 这类事的准确度可以达到 70%; Porter 词干提取器,使用更多规则,精确度更高; Snowball 提取器,是一个提取家族,可以分别处 阅读全文
posted @ 2021-02-04 09:54 月思 阅读(1667) 评论(0) 推荐(0) 编辑
摘要: 一、标识化处理(分词/分句) 标识化处理:将原生字符串分割为一系列有意义的分词。 机器要理解的最小处理单位为单词。所以标识化处理外,不适合再做进一步的操作。 标识器(tokenizer): 1、split() 分割; 2、正则; 3、NLTK 内置方法:nltk.tokenize.word_toke 阅读全文
posted @ 2021-02-04 09:53 月思 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 关于 NLTK NLTK:Natural Language Toolkit 官网:http://www.nltk.org NLTK 模块简介 语言处理任务 NLTK模块 功能描述 获取和处理语料库 nltk.corpus 语料库和词典的标准化接口 字符串处理 nltk.tokenize, nltk. 阅读全文
posted @ 2021-02-04 09:50 月思 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 关于NLP NLP:Natural Language Processing 自然语言处理。 目的:计算机能‘懂得’人类对它‘说’的话,然后去执行一些指定的任务。 NLP任务分类 序列标注问题 命名实体 品牌词识别 拼写检查 中文分词(词性标注) 句法分析 新词发现 同义词查找&替换 关键词提取&搜索 阅读全文
posted @ 2021-02-04 09:48 月思 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 学习资源 官网 https://www.python.org 菜鸟 https://www.runoob.com/python3/python3-number.html 廖雪峰 https://www.liaoxuefeng.com/wiki/1016959663602400 codingdict 阅读全文
posted @ 2021-02-04 09:16 月思 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 关于字典 字典是另一种可变容器模型,且可存储任意类型对象。 字典对象的本质是,一个通过键值而非索引 存取的无序的、可迭代、可变的映射表。键必须互不相同。 字典 & 序列 序列是以连续的整数为索引;字典以关键字为索引,关键字可以是任意不可变类型,通常用字符串或数值。 创建 字典的每个键值(key=>v 阅读全文
posted @ 2021-02-04 09:11 月思 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 模型误差 模型误差 = 偏差(Bias) + 方差(Variance) + 不可避免的误差 偏差方差权衡 Bias Variance Trade off 偏差 (Bias) 导致偏差的主要原因:对问题本身的假设不正确! 如:非线性数据 使用线性回归 欠拟合 方差(Variance) 数据的一点点扰动 阅读全文
posted @ 2021-02-04 08:56 月思 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 目录 官方 https://doc.qt.io/archives/qt-4.8/qwidget.html 银色的音色:QWidget控件学习总结 https://www.cnblogs.com/yinsedeyinse/p/10665007.html 阅读全文
posted @ 2021-02-04 08:07 月思 阅读(2) 评论(0) 推荐(0) 编辑
摘要: $ cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core" $ pwd /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core 阅读全文
posted @ 2021-02-03 12:17 月思 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 主页:https://github.com/soimort/you-get 安装 (base) $ pip3 install you-get 使用 查看信息 (base) $ you-get -i https://v.qq.com/x/page/xxxxxxx?start=1 Site: QQ.co 阅读全文
posted @ 2021-02-02 20:01 月思 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 特征使用方案 实现我们的目标需要哪些数据?基于业务理解 ,尽可能找出对因变量有影响的所有自变量 可用性评估 获取难度 覆盖率 准确率 特征获取方案 如何获取这些特征? 如何存储? 特征处理 特征清洗 清洗异常样本 采样 数据不均衡 样本权重 预处理 单个特征 归一化 离散化 Dummy Coding 阅读全文
posted @ 2021-02-02 16:31 月思 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 什么是拉索回归 LASSO: Least Absolute Shrinkage and Selection Operator Regression 岭回归的目标: 使 $J(\theta) = MSE(Y, \hat; \theta) \alpha \frac{1}{2} \sum_n \theta 阅读全文
posted @ 2021-02-02 11:05 月思 阅读(2197) 评论(0) 推荐(0) 编辑
摘要: TF 计算的每一个变量必须是 tensor 格式; import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' import tensorflow.compat.v1 as tf tf.disable_eager_execution() a = 3 # 创建 阅读全文
posted @ 2021-02-02 09:19 月思 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 安装 深度学习库的优势 参考教程:https://www.bilibili.com/video/BV1Rv411y7oE 提供 GPU 加速; 自动求导; 常用 API Tensor 运算 Torch.add Torch.mul Torch.matmul Torch.view Torch.expan 阅读全文
posted @ 2021-02-02 09:17 月思 阅读(94) 评论(0) 推荐(0) 编辑
摘要: LSTM 长短记忆网络 LSTM 是 RNN 的升级版,应用更广泛。 解决的问题: 增加控制参数C,保留有价值的信息; C 可以看做一个权重列表:[0, 0.1, 0.8, 1] 舍弃,小部分保留,大部分保留,全部保留。 LSTM 的重点是 控制参数怎么更新 如何训练C参数? 门是一种让信息选择式通 阅读全文
posted @ 2021-02-02 08:56 月思 阅读(100) 评论(0) 推荐(0) 编辑
摘要: RNN RNN:Recurrent Neural Network,循环神经网络,或 递归神经网络 来源 全连接神经网络和卷积神经网络 都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。 但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。 比如,当我 阅读全文
posted @ 2021-02-02 08:55 月思 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 卷积神经网络:Convolutional Neural Networks 神经网络基础上的改进版本。 用途 主要用于 计算机视觉领域,如 检测、追踪、分类、检索、分割;医学任务:细胞检测,人体透视图,对动态图进行识别等;无人驾驶。 检索:输入一张图像,判断是什么,返回有相似度的其他图片。 如上传 梅 阅读全文
posted @ 2021-02-02 08:53 月思 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 线性函数 也可以称为 得分函数 假设十分类 W 为权重参数,里面每一个数值代表这个点的重要性;正值是促进作用,负数代表抑制作用;控制着决策边界。这里有10 行数据; b 为偏置,微调; 损失函数 \(L_I = \sum_{j \neq y_i} max(0, s_j - s_{y_i} + 1)\ 阅读全文
posted @ 2021-02-02 08:50 月思 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 常用 User Guide (建议通读) https://scikit-learn.org/stable/user_guide.html ApacheCN:scikit-learn (sklearn) 官方文档中文版 https://sklearn.apachecn.org https://gith 阅读全文
posted @ 2021-02-02 07:39 月思 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://mp.weixin.qq.com/s/tJbOw5O4ZU-Iqm6uwv8Q6Q 匿名用户回答: 从一个cv内卷失败者的角度来聊一下。cv难的地方主要包含创新算法,模型底层加速和部署。 前者就是各种大佬,既能够提出好的idea,又能够解决实现idea的各种问题,刚开始ide 阅读全文
posted @ 2021-02-02 07:37 月思 阅读(1199) 评论(0) 推荐(0) 编辑
摘要: 使用 minst = fetch_mldata('MINST original') 获取数据的时候,提示这个错误 ConnectionResetError: [Errno 54] Connection reset by peer 看到这篇博文一步步往下走,解决了问题 https://blog.csd 阅读全文
posted @ 2021-02-02 07:29 月思 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 查看数据信息 数据异常 空数据 数据不均衡 数据归一化 大量数据 预处理方法 数据的归一化 数据引入 csv html, html、sax、dom 解析器 xml databases,pyodbc json pdf, pdfminer 查看数据信息 DataFrame的基础属性 DataFrame的 阅读全文
posted @ 2021-02-02 07:15 月思 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 训练集 & 测试集 如果拿所有原始数据来训练,存在的问题: 模型很差无法调整; 真实环境难以拿到真实 label; 所以将数据区分为 训练数据 和 测试数据(train test split); 将训练数据来训练模型;然后用测试数据测试模型; 使用这种方式也存在问题; python 原生分离 iri 阅读全文
posted @ 2021-02-02 07:11 月思 阅读(696) 评论(0) 推荐(0) 编辑