使用jieba分词进行中文词语的分割

实现代码：

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import DictVectorizer
import jieba


def cut_word(text):
    return " ".join(list(jieba.cut(text)))


def chinese_count():
    data = ["bili一般指bilibili。哔哩哔哩现为中国年轻世代高度聚集的文化社区和视频平台，该"
            "网站于2009年6月26日创建，被粉丝们亲切地称为“B站”。2018年3月28日，哔哩哔哩在美国纳斯达克上市。",
            "bilibili是国内知名的视频弹幕网站,这里有最及时的动漫新番,最棒的ACG氛围,最有创意的Up主。大家可以在这里找到许多欢乐。"]

    list = []
    for temp in data:
        list.append(cut_word(temp))
    print(list)

    transfer = CountVectorizer()
    new_data = transfer.fit_transform(list)

    names = transfer.get_feature_names()

    print("特征名字是：\n", names)
    print(new_data.toarray())
    print(new_data)


if __name__ == '__main__':
    chinese_count()

运行结果：

posted @ 2021-02-03 20:01 土豆面包阅读(237) 评论(0) 编辑收藏举报

刷新页面返回顶部

土豆面包

使用jieba分词进行中文词语的分割

公告