kmeans 对表达量进行聚类
代码如下
df = pd.read_csv("../kmeans/gene.fpkm.csv",header=None) print df.head() #去掉第一行 tdf = df.drop(index=[0]) #去掉第一列 mdf = tdf.drop([0],axis=1) #获取第一列作为行的名称 rownames=tdf[0] #获取第一行作为列的名称 gene=df.loc[0][1:] #修改原始数据库的行列名 mdf.rename(index=rownames, columns=gene, inplace=True) from sklearn.cluster import KMeans seed = 9 # 设置随机数 clf = KMeans(n_clusters=3, random_state=seed) # 聚类 clf.fit(mdf) mdf['label'] = clf.labels_ # 对原数据表进行类别标记 c = mdf['label'].value_counts()