08 2024 档案
摘要:1. TF-IDF 1.1 原理 1.1.1 名词解释 TF:词频,某token在文档中出现的次数越多,则这个token的特征越能代表这篇文档自身的独特特征。 计算:token出现次数 / 文档总token数 IDF:逆文档频率,如果某个token在所有文档中都出现,那么这个token对于区分这些文
阅读全文
摘要:1. 基于距离的k-means聚类,需要人工提供聚簇数量K 1.1 通过肘方法确定最佳聚簇数量 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.pre
阅读全文
摘要:1. 通过sklearn调用机器学习api处理问题通用流程 # -*- coding: utf-8 -*- import time import joblib import numpy as np import pandas as pd from collections import Counter
阅读全文