2024 年 10月 25 日随笔档案 - 数据猎手小k

2024年10月25日

摘要： 2024-10-23，由浙江大学软件技术学院和中国科学院深圳先进技术研究院等联合创建OVT-B，这个数据集的规模和多样性为开放词汇多目标跟踪（OVMOT）研究开辟了新的道路。一、研究背景：在人工智能领域，开放词汇目标感知正成为一个重要议题，旨在识别在训练期间未见过的新类别对象。尽管在单张图像中的阅读全文

posted @ 2024-10-25 18:13 数据猎手小k 阅读(5) 评论(0) 推荐(0) 编辑

CCI3.0-HQ数据集：一个500GB的高质量中文预训练数据集

摘要： 2024-09-19，由北京人工智能研究院（BAAI）创建的CCI3.0-HQ数据集，是一个通过新颖的两阶段混合过滤流程显著提升数据质量的高质量子集。这个数据集的意义在于，它不仅提高了数据的纯净度，还通过实验表明，使用该数据集训练的模型在多个基准测试中取得了优于现有中文数据集的性能，为中文语言模型的阅读全文

posted @ 2024-10-25 14:30 数据猎手小k 阅读(3) 评论(0) 推荐(0) 编辑

MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注.

摘要： 2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据阅读全文

posted @ 2024-10-25 11:11 数据猎手小k 阅读(6) 评论(0) 推荐(0) 编辑

Diffusion Deepfake Speech ：利用扩散模型生成的深度伪造语音数据集

摘要： 2024-10-09，由捷克布尔诺理工大学的研究人员创建了Diffusion Deepfake Speech，一个基于扩散模型的深度伪造语音数据集，对于评估和改进现有的深度伪造检测系统具有重要意义。一、研究背景：随着人工智能和机器学习技术的进步，合成语音生成技术已经变得足够先进，以至于能够欺骗系阅读全文

posted @ 2024-10-25 10:06 数据猎手小k 阅读(4) 评论(0) 推荐(0) 编辑

Omni-MATH数据集：超过33个子领域的通用奥林匹克级别的数学数据集.

摘要： 2024-10-10,北京大学联合多个机构和企业创建了Omni-MATH数据集，是一个大型语言模型在奥林匹克数学竞赛级别的数学推理能力进行评估的综合基准。这个数据集的创建意味着我们有了更严格的工具来测试和提高模型在解决复杂数学问题上的性能。一、研究背景：随着大型语言模型在数学推理能力上的显著进步阅读全文

posted @ 2024-10-25 10:03 数据猎手小k 阅读(6) 评论(0) 推荐(0) 编辑

BC-MRI-SEG数据集：首个统一的乳腺癌MRI肿瘤分割基准，推动深度学习模型的泛化能力

摘要： 2024-04-22，由美国中佛罗里达大学计算机视觉研究中心创建了BC-MRI-SEG，这是基于公开可用的MRI数据集的二元乳腺癌肿瘤分割的基准。这个数据集的创建，不仅为医学影像社区提供了易于访问的四个公共乳腺癌MRI数据集，还通过比较最先进的深度学习方法，为临床设置中的稳健和适应性强的模型提供了评阅读全文

posted @ 2024-10-25 09:00 数据猎手小k 阅读(4) 评论(0) 推荐(0) 编辑

公告