2024 年 6月 23 日随笔档案 - Uitwaaien_wxy

2024年6月23日

摘要：在数字化时代，智能知识问答系统成为了提升企业效率和数据安全性的关键工具。本文将介绍如何基于Langchain和ChatGLM构建一个本地化、支持中文的智能知识问答系统。该系统不仅能够实现完全本地化推理，而且对开源模型友好，可满足企业对数据隐私和私域化部署的需求。项目概览本项目利用大语言模型（LL 阅读全文

posted @ 2024-06-23 14:04 Uitwaaien_wxy 阅读(159) 评论(0) 推荐(0) 编辑

NLP大模型涉浅

摘要：自然语言处理（NLP）作为人工智能的皇冠上的明珠，一直吸引着众多研究者的目光。随着深度学习技术的发展，NLP领域迎来了新的春天。从词汇表征到复杂的神经网络模型，再到预训练语言模型的微调，深度学习为NLP提供了强大的工具和方法。词汇表征：NLP的基石在NLP中，词汇表征是将词语转换为计算机可处理形阅读全文

posted @ 2024-06-23 13:59 Uitwaaien_wxy 阅读(21) 评论(0) 推荐(0) 编辑

关联规则分析：Apriori算法及其应用

摘要：关联规则分析基础在数据挖掘领域，关联规则分析是一种发现变量之间有趣关系的技术。这种关系通常被描述为“如果...那么...”的模式，例如，“如果一个顾客购买了面包，那么他们也很可能会购买黄油”。Apriori算法是最著名的关联规则挖掘算法之一，广泛应用于市场篮子分析。本事务库与项集事务库是关联规阅读全文

posted @ 2024-06-23 13:53 Uitwaaien_wxy 阅读(134) 评论(0) 推荐(0) 编辑

Scala基础与集合操作

摘要： Scala简介 Scala，一种将面向对象编程和函数式编程融为一体的高级语言，正受到越来越多开发者的青睐。它以其简洁、优雅的语法和类型安全的保证，成为了构建大型系统和编写简单脚本的理想选择。 Scala运行于Java平台，能够与Java库无缝集成。由于其在Spark等大数据处理框架中的重要应用，学习阅读全文

posted @ 2024-06-23 13:50 Uitwaaien_wxy 阅读(9) 评论(0) 推荐(0) 编辑

基于协同过滤算法的智能推荐系统基础介绍

摘要：协同过滤算法概述协同过滤算法的核心思想是通过用户或物品的相似性进行推荐。该算法主要分为两类：基于用户的协同过滤（User-based Collaborative Filtering）：寻找相似的用户群体，推荐他们喜欢的产品给目标用户。基于物品的协同过滤（Item-based Collabora 阅读全文

posted @ 2024-06-23 13:47 Uitwaaien_wxy 阅读(94) 评论(0) 推荐(0) 编辑

Apache Spark 安装和基础使用

摘要： Spark 概述大数据总体开发架构： Apache Spark 是一个开源的集群计算框架，以其快速、易用、通用和高度可扩展性而著称。Spark 支持多种编程语言，包括 Java、Scala、Python 和 R，并提供了丰富的库，如 Spark SQL、MLlib、GraphX 和 Spark S 阅读全文

posted @ 2024-06-23 13:43 Uitwaaien_wxy 阅读(60) 评论(0) 推荐(0) 编辑

HBase：从基础操作到集群管理

摘要： HBase简介 HBase，一个由Apache软件基金会开发的分布式、面向列的NoSQL数据库，以其高性能和可扩展性在大数据领域占据着重要地位。 HBase的基本概念 HBase是基于Google的Bigtable模型构建的，它是一个分布式、可扩展、面向列的存储系统，适合于存储大量的非结构化和半结构阅读全文

posted @ 2024-06-23 13:38 Uitwaaien_wxy 阅读(32) 评论(0) 推荐(0) 编辑

Spark SQL与Hive的整合

摘要：在大数据时代，处理和分析海量数据集的能力变得至关重要。Apache Spark和Hive作为两个强大的数据处理工具，在数据仓库和分析领域有着广泛的应用。本文将探讨如何将Spark SQL与Hive整合，以及如何利用这一整合来提高数据处理的效率和灵活性。 Spark SQL简介 Spark SQL是A 阅读全文

posted @ 2024-06-23 13:35 Uitwaaien_wxy 阅读(204) 评论(0) 推荐(0) 编辑

Zookeeper安装、配置与基本操作指南

摘要： Apache Zookeeper 是一个分布式协调服务，用于维护配置信息、命名、提供分布式同步以及提供组服务。本文结合两篇详细的技术文档，介绍 Zookeeper 的安装、配置以及基本操作。一、Zookeeper 的安装与配置 ZooKeeper的主要功能配置管理分布式锁集群管理 Zooke 阅读全文

posted @ 2024-06-23 12:51 Uitwaaien_wxy 阅读(623) 评论(0) 推荐(0) 编辑

数据仓库Hive

摘要： Apache Hive 安装、配置与基本操作指南 Apache Hive 是一个基于 Hadoop 的数据仓库工具，可以将结构化数据文件映射为一张表，并提供类 SQL 查询功能。本文将结合两篇详细的技术文档，介绍 Hive 的安装、配置以及基本操作。一、Hive 的安装与配置 Hive架构 1. 阅读全文

posted @ 2024-06-23 12:47 Uitwaaien_wxy 阅读(38) 评论(0) 推荐(0) 编辑

Hadoop电商日志数据分析(三)

摘要： ETL 1.ETL的重要性 ==> 存在的问题：每个MR作业都去全量读取待处理的原始日志，如果数据量很大，将非常不可取 ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。阅读全文

posted @ 2024-06-23 12:30 Uitwaaien_wxy 阅读(12) 评论(0) 推荐(0) 编辑

Hadoop电商日志数据分析(一)

摘要：项目要求根据电商日志文件，分析： 1 . 统计页面浏览量（每行记录就是一次浏览） 2 . 统计各个省份的浏览量（需要解析IP） 3 . 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所阅读全文

posted @ 2024-06-23 12:22 Uitwaaien_wxy 阅读(21) 评论(0) 推荐(0) 编辑

Hadoop电商日志数据分析(二)

摘要：浏览量统计功能实现统计页面的浏览量 count 一行记录做成一个固定的KEY，value赋值为1 PVStatApp 点击查看代码 package com.imooc.bigdata.hadoop.mr.project.mr; import org.apache.hadoop.conf.Confi 阅读全文

posted @ 2024-06-23 12:10 Uitwaaien_wxy 阅读(15) 评论(0) 推荐(0) 编辑

xiaoyu-w

公告