摘要:
机器学习技术间的包含关系: 深度学习⊆表示学习(即特征学习)⊆机器学习⊆人工智能 相比于(传统)机器学习,可以认为深度学习自动学习到特征,而(传统)机器学习中特征则由人工进行设计和提取。 multi-class (多分类中的)多类别任务。一个样本的类别有且仅有多个类别中的一个。 multi-labe 阅读全文
摘要:
Graph Representation Learning (Graph Neural Networks, GNN) A Review of methods and applications, Zhou Jie 2020, on AI Open Figure. An overwiew of comp 阅读全文
摘要:
机器学习 (传统机器学习) (Machine Learning) 预测的是离散值,则学习任务称为“分类”(classification)任务;预测的是连续值,则是“回归”(regression)任务。 对于二分类任务,一类通常称为“正类”(正例,positive class/label),另一类称为 阅读全文
摘要:
Sampling 采样 A* sampling CJ Maddison, 2014, NeurIPS A pratical generic sampling algorithm that searchs for the maximum of a Gumbel process using A* sea 阅读全文
摘要:
Abstract Algebra 抽象代数 “代数”研究的不再只是“数”(实数或复数),而是更广泛的符号,包含“实数”、“复数”、“函数”、或其他,从一般意义上的“数”推广到符号。 $\sigma$ -algebra ( $\sigma$ -field) [Def] A collection $\S 阅读全文
摘要:
香侬信息论 Shannon Information Theory 自信息(self-information): $I(x)=-\log p(x)$ ,其中约定 $I(x)=0 \text{ if } p(x)=0$ ,以自然常数为底的对数时,信息单位为奈特(nats),以2为底时单位为比特(bits 阅读全文
摘要:
Finite State Automaton also called Finite State Machine, State Machine, 是一种计算数学模型,其根据输入时序信号将抽象机器从一种状态改变到另一种状态。 Deterministic Finite Automaton, DFA (au 阅读全文
摘要:
Calculus 微积分 微积分包含微分(differentiation)和积分(integration),微分是基于变量增量无限细微化思想来分析解决问题的方法,积分是基于细微化增量无限汇聚思想来分析解决问题的方法。 在微分理论中,一个变量的无限小的增量 $\Delta x$ 被称为“微分”(Dif 阅读全文
摘要:
Optimization 一阶导数优化 二阶导数优化 牛顿法(Newton's method): 是一种二阶导数优化方法。 Lipschitz连续(Lipschitz continuous): Lipschitz连续函数的变化速度以Lipschitz常数为界: $$ \forall \bm x,\f 阅读全文
摘要:
概率论与数理统计 Probability Theory and Statistics Sample space, Event, Event space 样本空间、事件、事件空间 [Def] The set of all possible outcomes is called the sample s 阅读全文
摘要:
降维 Dimensionality Reduction 主成分分析 Principle Components Analysis, PCA 要对数据进行零均值化预处理。 对协方差矩阵进行奇异值分解,或者进行特征分解。 零均值化的数据矩阵 $X\in \mathbb R^{m\times n}$ : $ 阅读全文
摘要:
Graph Theory 图论 Laplacian matrix Categories of graphs: directed/undirected. homogeneous/heterogeneous. static/dynamic. A dynamic graph is a graph whos 阅读全文
摘要:
pandas pandas是一个用于数据处理和分析的python库。 适宜处理的数据有许多种: 表格类,其列甚至可以是异构的。 固定频率和无固定频率的时序数据。 矩阵,有行标签、列标签的,同构的/异构的。 其他形式的统计数据集,不要求其是有标签的。 pandas中两类主要的数据结构,Series,其 阅读全文
摘要:
jupyter-notebook是一个用以编程python代码的笔记本环境。 具有安全机制,其认证令牌(token)会在启动过程中在打印到标准输出。 Install 安装 # install with conda conda install -c conda-forge jupyterlab # i 阅读全文
摘要:
numpy 创建ndarray np.array(some_np_array) clone a nd-array (e.g. a vector, a matrix). np.array(list) 一阶 如果是类似一维数组,则返回向量(1D-array,不存在行、列之分,shape都是(n,)而非( 阅读全文
摘要:
anaconda / conda 国外资源下载慢,使用国内清华镜像,在提供的下载页面中选择对应系统、pytho版本的安装包,Anaconda2-xxx对应Python 2.x,而Anaconda3-xxx对应python 3.x。如选择Anaconda2-4.3.1-Linux-x86_64.sh, 阅读全文
摘要:
GenSim——NLP工具 GenSim is an open source python library for nlp modelling. API online docs (from official site:) GenSim: topic modelling for humans. Tra 阅读全文
摘要:
Word Mover's Distance Family 文本相似度评估方法 Word Mover's Distance Family (until 2020): WCD, word centroid distance WMD, word mover's distance S-WCD, superv 阅读全文
摘要:
短文本、字符串的相似度计算方法一般是非深层语义的,速度比较快。 string-based, corpus-based, knowledge-based (e.g. wordnet). 常见算法有: LCS, Longest common substring Jaro-Distance, based 阅读全文