摘要:
概率论与数理统计 Probability Theory and Statistics Sample space, Event, Event space 样本空间、事件、事件空间 [Def] The set of all possible outcomes is called the sample s 阅读全文
摘要:
降维 Dimensionality Reduction 主成分分析 Principle Components Analysis, PCA 要对数据进行零均值化预处理。 对协方差矩阵进行奇异值分解,或者进行特征分解。 零均值化的数据矩阵 $X\in \mathbb R^{m\times n}$ : $ 阅读全文
摘要:
Graph Theory 图论 Laplacian matrix Categories of graphs: directed/undirected. homogeneous/heterogeneous. static/dynamic. A dynamic graph is a graph whos 阅读全文
摘要:
pandas pandas是一个用于数据处理和分析的python库。 适宜处理的数据有许多种: 表格类,其列甚至可以是异构的。 固定频率和无固定频率的时序数据。 矩阵,有行标签、列标签的,同构的/异构的。 其他形式的统计数据集,不要求其是有标签的。 pandas中两类主要的数据结构,Series,其 阅读全文
摘要:
jupyter-notebook是一个用以编程python代码的笔记本环境。 具有安全机制,其认证令牌(token)会在启动过程中在打印到标准输出。 Install 安装 # install with conda conda install -c conda-forge jupyterlab # i 阅读全文
摘要:
numpy 创建ndarray np.array(some_np_array) clone a nd-array (e.g. a vector, a matrix). np.array(list) 一阶 如果是类似一维数组,则返回向量(1D-array,不存在行、列之分,shape都是(n,)而非( 阅读全文
摘要:
anaconda / conda 国外资源下载慢,使用国内清华镜像,在提供的下载页面中选择对应系统、pytho版本的安装包,Anaconda2-xxx对应Python 2.x,而Anaconda3-xxx对应python 3.x。如选择Anaconda2-4.3.1-Linux-x86_64.sh, 阅读全文
摘要:
GenSim——NLP工具 GenSim is an open source python library for nlp modelling. API online docs (from official site:) GenSim: topic modelling for humans. Tra 阅读全文
摘要:
Word Mover's Distance Family 文本相似度评估方法 Word Mover's Distance Family (until 2020): WCD, word centroid distance WMD, word mover's distance S-WCD, superv 阅读全文
摘要:
短文本、字符串的相似度计算方法一般是非深层语义的,速度比较快。 string-based, corpus-based, knowledge-based (e.g. wordnet). 常见算法有: LCS, Longest common substring Jaro-Distance, based 阅读全文