上一页 1 ··· 8 9 10 11 12
摘要: 2024-03-26 , 由中国科学院深圳先进技术研究院、北京大学、中国科学技术大学等联合发布数据集COIG-CQIA,这是一个高质量的中文指令微调数据集,包括问答和文章,以提供与人类互动一致的指令微调数据。 一、目前遇到困难和挑战 1、语言和文化差异: 中文具有独特的语言特征和文化深度,与英文存在 阅读全文
posted @ 2024-09-06 16:47 数据猎手小k 阅读(7) 评论(0) 推荐(0) 编辑
摘要: IEPile:由浙江大学和蚂蚁集团等联合发布一个全面的双语信息抽取(IE)指令语料库 2024-04-11 ,由浙江大学;蚂蚁集团;浙江大学-蚂蚁集团知识图谱联合实验室联合发布IEPile,一个全面的双语(英语和中文)IE指令语料库,包含约3.2亿个标记。 现在目前遇到问题和挑战 1、大型语言模型( 阅读全文
posted @ 2024-09-06 16:43 数据猎手小k 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 一、获取要分析的数据 最近发现一个数据集搜索引擎,里面有很多数据集资源。界面设计小清新,看起来挺舒服的。通过关键词搜索,也能找到相关的数据集。如果找不到,下面也提供很多站点,可以扩大寻找范围。 遇见数据集-https://www.selectdataset.com/专注于发现数据集的引擎 二、 查看 阅读全文
posted @ 2024-06-14 18:29 数据猎手小k 阅读(1) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12