摘要:
在数字化时代,智能知识问答系统成为了提升企业效率和数据安全性的关键工具。本文将介绍如何基于Langchain和ChatGLM构建一个本地化、支持中文的智能知识问答系统。该系统不仅能够实现完全本地化推理,而且对开源模型友好,可满足企业对数据隐私和私域化部署的需求。 项目概览 本项目利用大语言模型(LL 阅读全文
摘要:
自然语言处理(NLP)作为人工智能的皇冠上的明珠,一直吸引着众多研究者的目光。随着深度学习技术的发展,NLP领域迎来了新的春天。从词汇表征到复杂的神经网络模型,再到预训练语言模型的微调,深度学习为NLP提供了强大的工具和方法。 词汇表征:NLP的基石 在NLP中,词汇表征是将词语转换为计算机可处理形 阅读全文
摘要:
关联规则分析基础 在数据挖掘领域,关联规则分析是一种发现变量之间有趣关系的技术。这种关系通常被描述为“如果...那么...”的模式,例如,“如果一个顾客购买了面包,那么他们也很可能会购买黄油”。Apriori算法是最著名的关联规则挖掘算法之一,广泛应用于市场篮子分析。本 事务库与项集 事务库是关联规 阅读全文
摘要:
Scala简介 Scala,一种将面向对象编程和函数式编程融为一体的高级语言,正受到越来越多开发者的青睐。它以其简洁、优雅的语法和类型安全的保证,成为了构建大型系统和编写简单脚本的理想选择。 Scala运行于Java平台,能够与Java库无缝集成。由于其在Spark等大数据处理框架中的重要应用,学习 阅读全文
摘要:
协同过滤算法概述 协同过滤算法的核心思想是通过用户或物品的相似性进行推荐。该算法主要分为两类: 基于用户的协同过滤(User-based Collaborative Filtering):寻找相似的用户群体,推荐他们喜欢的产品给目标用户。 基于物品的协同过滤(Item-based Collabora 阅读全文
摘要:
Spark 概述 大数据总体开发架构: Apache Spark 是一个开源的集群计算框架,以其快速、易用、通用和高度可扩展性而著称。Spark 支持多种编程语言,包括 Java、Scala、Python 和 R,并提供了丰富的库,如 Spark SQL、MLlib、GraphX 和 Spark S 阅读全文
摘要:
HBase简介 HBase,一个由Apache软件基金会开发的分布式、面向列的NoSQL数据库,以其高性能和可扩展性在大数据领域占据着重要地位。 HBase的基本概念 HBase是基于Google的Bigtable模型构建的,它是一个分布式、可扩展、面向列的存储系统,适合于存储大量的非结构化和半结构 阅读全文
摘要:
在大数据时代,处理和分析海量数据集的能力变得至关重要。Apache Spark和Hive作为两个强大的数据处理工具,在数据仓库和分析领域有着广泛的应用。本文将探讨如何将Spark SQL与Hive整合,以及如何利用这一整合来提高数据处理的效率和灵活性。 Spark SQL简介 Spark SQL是A 阅读全文
摘要:
Apache Zookeeper 是一个分布式协调服务,用于维护配置信息、命名、提供分布式同步以及提供组服务。本文结合两篇详细的技术文档,介绍 Zookeeper 的安装、配置以及基本操作。 一、Zookeeper 的安装与配置 ZooKeeper的主要功能 配置管理 分布式锁 集群管理 Zooke 阅读全文
摘要:
Apache Hive 安装、配置与基本操作指南 Apache Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化数据文件映射为一张表,并提供类 SQL 查询功能。本文将结合两篇详细的技术文档,介绍 Hive 的安装、配置以及基本操作。 一、Hive 的安装与配置 Hive架构 1. 阅读全文
摘要:
ETL 1.ETL的重要性 ==> 存在的问题:每个MR作业都去全量读取待处理的原始日志,如果数据量很大,将非常不可取 ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程 为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。 阅读全文
摘要:
项目要求 根据电商日志文件,分析: 1 . 统计页面浏览量(每行记录就是一次浏览) 2 . 统计各个省份的浏览量 (需要解析IP) 3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程) 为什么要ETL:没有必要解析出所 阅读全文
摘要:
浏览量统计功能实现 统计页面的浏览量 count 一行记录做成一个固定的KEY,value赋值为1 PVStatApp 点击查看代码 package com.imooc.bigdata.hadoop.mr.project.mr; import org.apache.hadoop.conf.Confi 阅读全文