Loading

摘要: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常指的是一个更广泛的概念——Hadoop生态圈 一、Hadoop的发展历史 Lucene框架是由Doug Cutting开创的开源软件,用Java进行编写的,实现 阅读全文
posted @ 2020-11-09 18:03 selfcs 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 一、TF-IDF简介 在自然语言处理中,TF-IDF(term frequency–inverse document frequency)常用于挖掘文章中的关键词, 算法以简单高效著称。TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inv 阅读全文
posted @ 2020-06-28 10:27 selfcs 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 题目描述 请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。 思路 熟悉Python的同学,会立即想到自带 库中的 。当然在这个方法一行代码就搞定了。 运行效率是: 运行时间:40ms;占用内 阅读全文
posted @ 2020-04-14 10:26 selfcs 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 题目描述 在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 思路 首先,我们将要查找的数字(命为tag)与右上角的数字比较。a.如果相等,则查找结束。b.如 阅读全文
posted @ 2020-04-14 10:25 selfcs 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 欧几里得距离 在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。使用这个距离,欧氏空间成为度量空间。相关联的范数称为欧几里得范数。较早的文献称之为毕达哥拉斯度量。 计算方式的局限。 比如说计算两个点的距离,点A(10,10000)、点B(1,500),第二个维度对于距 阅读全文
posted @ 2020-04-13 16:42 selfcs 阅读(502) 评论(0) 推荐(1) 编辑
摘要: 一、安装 二、启动 启动服务 三、配置 创建用户管理员 使用admin 创建远程连接用户 修改/etc/mongod.conf 配置远程 参考 https://docs.mongodb.com/manual/tutorial/install mongodb on ubuntu/ 阅读全文
posted @ 2020-04-13 15:57 selfcs 阅读(1463) 评论(0) 推荐(0) 编辑
摘要: 最近再清洗一些国外的数据,有英语,葡萄牙语等,因此查找了解决办法做个记录。 简单测试一下: 附上语言(文化)代码与国家地区对照表: 国家/地区 | 语言代码 | 国家/地区 | 语言代码 | | | 简体中文(中国) | zh cn | 繁体中文(台湾地区) | zh tw 繁体中文(香港) | z 阅读全文
posted @ 2020-04-13 15:36 selfcs 阅读(6928) 评论(0) 推荐(0) 编辑
摘要: 前言 Neo4j是比较常用的一种图形数据库,本篇文章是介绍如何在 ubuntu 上安装和简单使用它。 安装依赖 在安装Neo4j前,我们需要安装Java环境,Neo4j3.5版本需要Java8。这里官方建议的是使用OpenJDK8安装,而不是Oracle Java 8。命令如下: 安装后检测一下时候 阅读全文
posted @ 2020-04-08 11:19 selfcs 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 常用的决策树算法有 ID3、C4.5、CART ,它们构建树所使用的启发式函数各是什么?除了构建准则之外,它们之间的区别与联系是什么?首先,我们回顾一下这几种决策树构造时使用的准则。 | 人 | 年龄 | 长相 | 工资 | 写代码 | 类别 | | | | | | | | | 小A | 老 | 帅 阅读全文
posted @ 2020-04-02 21:43 selfcs 阅读(1323) 评论(0) 推荐(0) 编辑
摘要: 自动文档摘要评价方法大致分为两类: (1) 内部评价方法(Intrinsic Methods) :提供参考摘要,以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合, 质量越高。 (2) 外部评价方法(Extrinsic Methods) :不提供参考摘要,利用文档摘要代替原文档执行某个文档 阅读全文
posted @ 2020-04-02 21:36 selfcs 阅读(636) 评论(0) 推荐(0) 编辑