导航

2023年3月4日

摘要: 提到token,不得不提tokenization(分词)。分词就是将句子、段落、文章这类型的长文本,分解为以字词(token)为单位的数据结构。 比方说,在句子 “我很开心” 中,利用中文分词得到的列表是{“我”,“很”,“开心”},列表中的每一个元素代表一个token。 不同的分词策略,会导致不同 阅读全文

posted @ 2023-03-04 07:48 蝈蝈俊 阅读(4463) 评论(0) 推荐(1) 编辑