08 2024 档案

摘要:1. TF-IDF 1.1 原理 1.1.1 名词解释 TF:词频,某token在文档中出现的次数越多,则这个token的特征越能代表这篇文档自身的独特特征。 计算:token出现次数 / 文档总token数 IDF:逆文档频率,如果某个token在所有文档中都出现,那么这个token对于区分这些文 阅读全文
posted @ 2024-08-09 14:56 橘子葡萄火龙果 阅读(173) 评论(0) 推荐(0) 编辑
摘要:1. 基于距离的k-means聚类,需要人工提供聚簇数量K 1.1 通过肘方法确定最佳聚簇数量 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.pre 阅读全文
posted @ 2024-08-08 20:39 橘子葡萄火龙果 阅读(19) 评论(0) 推荐(0) 编辑
摘要:1. 通过sklearn调用机器学习api处理问题通用流程 # -*- coding: utf-8 -*- import time import joblib import numpy as np import pandas as pd from collections import Counter 阅读全文
posted @ 2024-08-08 15:28 橘子葡萄火龙果 阅读(10) 评论(0) 推荐(0) 编辑