06 2021 档案

摘要:说在前面 需要修改hosts文件 首先,先讲一讲hosts文件的作用,因为一开始我认为hosts文件是系统文件,害怕把电脑弄坏,在这里也给像我一样胆子小的小白科普一下,解除心中的恐惧。hosts的作用是建立域名与IP之间的关系,你在浏览器输入网址后,系统会先从hosts处寻找域名对应的IP,如果没有 阅读全文
posted @ 2021-06-21 15:48 酸奶面包 阅读(1073) 评论(0) 推荐(0)
摘要:说在前面 和word的文本相比PDF更类似于一张张图片,图上放着一个个文字。对其的解析是将图片上的文字提取到text文件中,方便之后的分析。 添加依赖 在python的环境中安装PDFminer3k,不要装错了,一开始我装的是PDFminer,结果有几个包不能用 pip install pdfmin 阅读全文
posted @ 2021-06-19 11:12 酸奶面包 阅读(689) 评论(0) 推荐(0)
摘要:论数据湖及其应用 一、数据湖的简述 顾名思义,数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化 数据 阅读全文
posted @ 2021-06-08 20:50 酸奶面包 阅读(426) 评论(0) 推荐(0)
摘要:1. 知识图谱的研究目标与意义 知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为 阅读全文
posted @ 2021-06-01 17:20 酸奶面包 阅读(666) 评论(0) 推荐(0)