01 2019 档案
摘要:在《机器学习 文本特征提取之词袋模型(Machine Learning Text Feature Extraction Bag of Words)》一文中,我们通过计算文本特征向量之间的欧氏距离,了解到各个文本之间的相似程度。当然,还有其他很多相似度度量方式,比如说余弦相似度。 在《皮尔逊相关系数与
阅读全文
摘要:MongoDB简介(摘自:http://www.runoob.com/mongodb/mongodb-intro.html) MongoDB 由C++语言编写,是一个基于分布式文件存储的开源数据库系统。 MongoDB 将数据存储为一个文档,数据结构由键值对(key=>value)组成,类似于 JS
阅读全文
摘要:在网上有很多教程,教我们如何把MongoDB安装成一个服务。事实上,从4.0版本开始,MongoDB就可以自行安装成一个服务了(Install MongoDB as a service),同时自动建立文件储存目录(Data Directory)和日志目录(Log Directory)。具体步骤可见官
阅读全文
摘要:简介 关系型数据库管理系统(RDBMS)用来操作建立在关系模型基础上的数据库,主要代表有:Microsoft SQL Server,Oracle,MySQL(开源)。 非关系型数据库(NoSQL),主要代表有:MongoDB,Redis。 ACID vs BASE ACIDBASE 原子性(Atom
阅读全文
摘要:以下摘录了爬虫经常用的正则表达式,如需更详细的信息,请查看崔庆才的个人网页: https://cuiqingcai.com/5530.html。 使用Python的re模块: 导入re模块: re.complie(pattern) 将正则字符串编译成正则表达式对象 re.findall(patter
阅读全文
摘要:之前《皮尔逊相关系数(Pearson Correlation Coefficient, Pearson's r)》一文介绍了皮尔逊相关系数。那么,皮尔逊相关系数(Pearson Correlation Coefficient)和余弦相似度(Cosine Similarity)之间有什么关联呢? 首先
阅读全文
摘要:最近在看爬虫方面的知识,看到崔庆才所著的《Python3网络爬虫开发实战》一书讲的比较系统,果断入手学习。下面根据书中的内容,简单总结一下爬虫的基础知识,并且实际练习一下。详细内容请见:https://cuiqingcai.com/5465.html(作者已把书的前几章内容对外公开)。 在写爬虫程序
阅读全文