cojames - 博客园

2024年3月19日

摘要：高性能网站建设曾雨坤摘要：本文以《高性能网站建设指南》为核心理论依据，深入探讨了网站性能优化的关键策略和实法方法，简述了网站性能对用户体验及商业成功的重要性，并概述了该指南中提出的若干核心原则，如减少HTTP请求、利用CDN加速内容分发、实施缓存策略、压缩资源文件以及优化渲染流程等。在应用实践分阅读全文

posted @ 2024-03-19 18:22 cojames 阅读(154) 评论(0) 推荐(0)

大数据分析之数据下钻上卷

摘要：声明：本次任务简单所以没有前后端分离去做，因此不需要异步处理（cors）根据Python将数据合并清洗，分析之后，将得到的数据存入数据库，数据库中就是各行业的类别以及数量。前端用java的相关知识利用echarts绘制数据下钻和上卷图前端： <!DOCTYPE html> <html> <he 阅读全文

posted @ 2024-03-19 18:21 cojames 阅读(201) 评论(0) 推荐(0)

2024年3月7日

大数据分析---关键词分类任务

摘要：现在的任务需求是根据关键词（以逗号分割的一列）对类别分类。问题： 1.样本数据不够多，并且关键词来源于之前的csv文件的某一列的提取，可能本身就不太准确。 2.数据本身有空值等不合理的字段。 3.数据准备阶段需要将将中文文本转化为encoding编码解决方案：经过查阅资料可以选择使用朴素贝叶斯阅读全文

posted @ 2024-03-07 18:38 cojames 阅读(104) 评论(0) 推荐(0)

2024年3月6日

大三下入学测试---数据分析练习

摘要：分三部分：关键字提取，利用机器学习算法实现文本分类，获取行政区划编码，数据下钻后续再说关键字提取：利用jieba分词实现读取数据库的某一列，并对该列分词。 import pymysql import pandas as pd from jieba.analyse import extract_ta 阅读全文

posted @ 2024-03-06 21:21 cojames 阅读(63) 评论(0) 推荐(0)

大三入学测试--数据分析练习（题目）

摘要：一、原始数据：二、地域维度标准化：地域属性在科技成果分析中作为一个重要维度，其标准取值非常必要，目前我国采用的标准行政区划代码由两部分组成，一部分为行政区划编码，六位数字组成，前两位表示省编码，中间两位代表市编码，后两位表示所属市的区或县编码。一部分为行政区划名称。两部分在数据分析中经常用到阅读全文

posted @ 2024-03-06 21:14 cojames 阅读(108) 评论(0) 推荐(0)

2024年2月27日

多重背包问题

摘要： 1. 题目问题描述：有n件物品和容量为m的背包，给出i件物品的重量以及价值value，还有数量number，求解让装入背包的物品重量不超过背包容量W，且价值V最大。特点：它与完全背包有类似点，特点是每个物品都有了一定的数量。2. 分析2.1 状态表示一般用dp数组来计算动态规划问题，从以下两个方阅读全文

posted @ 2024-02-27 17:59 cojames 阅读(154) 评论(0) 推荐(0)

2024年2月20日

深度学习学习一

摘要：深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的阅读全文

posted @ 2024-02-20 14:48 cojames 阅读(41) 评论(0) 推荐(0)

2024年2月16日

pca降维

摘要：实际使用数据集的时候由于特征很多，会很耗时，因此需要减少特征，但是不知道特征多少合适，这个时候就要使用特征降维降维作用（1）使得数据集更容易使用（2）降低很多算法的计算开销（3）去除噪声（4）多维数据不容易画图，降低维度容易画图，使结果容易理解。优点：降低数据的复杂性，识别出最重要的多个特征。阅读全文

posted @ 2024-02-16 16:07 cojames 阅读(67) 评论(0) 推荐(0)

2024年2月15日

svm算法

摘要：支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正阅读全文

posted @ 2024-02-15 15:51 cojames 阅读(313) 评论(0) 推荐(0)

2024年2月4日

聚类算法学习总结

摘要： 1.1 聚类的定义聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。 1.2 聚类和分类的区别聚类(Clu 阅读全文

posted @ 2024-02-04 17:08 cojames 阅读(419) 评论(0) 推荐(0)

copyjames

公告