fariver

2025年9月19日

[PaperReading] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

摘要：目录Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and BeyondTL;DRMethodPretrainingMultiTask PreTrainingSuper 阅读全文

posted @ 2025-09-19 21:24 fariver 阅读(70) 评论(0) 推荐(0)

2025年9月16日

[PaperReading] DINOv3

摘要：目录DINOv3TL;DRMethodDataArchitectureLearning ObjectiveGram Anchoring ObjectiveLeveraging Higher-Resolution Featurespost-hoc strategiesExperiment相关链接 DI 阅读全文

posted @ 2025-09-16 21:36 fariver 阅读(214) 评论(0) 推荐(0)

2025年8月22日

[PaperReading] LLaVA: Visual Instruction Tuning

摘要：目录LLaVA: Visual Instruction TuningTL;DRDataScienceQA多模态测试集Method多轮对话Experiment效果可视化总结与思考相关链接 LLaVA: Visual Instruction Tuning link 时间：23.12 单位：Univers 阅读全文

posted @ 2025-08-22 22:11 fariver 阅读(44) 评论(0) 推荐(0)

2025年8月20日

[思考] 具身智能

摘要：目录人形机器人基于动力学方法盲人行走法传感器+世界模型更多动作的训练？更难动作的训练？VLA模型数据Open X-Embodiment (OXE)仿真环境数据集大规模人类视频数据集评测核心指标：任务成功率 (Success Rate, SR)评测场景：仿真 vs. 真实世界泛化能力基准测试 (Gen 阅读全文

posted @ 2025-08-20 17:50 fariver 阅读(156) 评论(0) 推荐(0)

2025年8月16日

[PaperReading] π0.5: a Vision-Language-Action Model with Open-World Generalization

摘要：目录π0.5: a Vision-Language-Action Model with Open-World GeneralizationTL;DRMethodTraining RecipeData硬件配置Experiment效果可视化总结与思考相关链接 π0.5: a Vision-Languag 阅读全文

posted @ 2025-08-16 17:39 fariver 阅读(154) 评论(0) 推荐(0)

2025年8月14日

[PaperReading] GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

摘要：目录GR00T N1: An Open Foundation Model for Generalist Humanoid RobotsTL;DRMethodSystem2System1Training SettingDatahuman video数据pretrain方法神经轨迹生成流程仿真轨迹生成方阅读全文

posted @ 2025-08-14 22:20 fariver 阅读(95) 评论(0) 推荐(0)

2025年8月12日

[PaperReading] GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

摘要：目录GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot ManipulationTL;DRMethod模型架构关于cVAEDatasetPre-train DatasetRobotic D 阅读全文

posted @ 2025-08-12 22:11 fariver 阅读(53) 评论(0) 推荐(0)

[PaperReading] RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE

摘要：目录RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALETL;DRMethodinstructions与images模态特征处理TokenLearnerAction预测DataExperiment在新任务上Zero-shot泛化能力仿真阅读全文

posted @ 2025-08-12 20:46 fariver 阅读(132) 评论(0) 推荐(0)

2025年8月11日

[PaperReading] Helix: A Vision-Language-Action Model for Generalist Humanoid Control

摘要：目录Helix: A Vision-Language-Action Model for Generalist Humanoid ControlTL;DRMethodMotivationSystem 2 (S2，慢系统)System 1 (S1, 快系统)DataExperiment效果可视化总结与思阅读全文

posted @ 2025-08-11 21:38 fariver 阅读(210) 评论(0) 推荐(0)

2025年8月9日

[PaperReading] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

摘要：目录RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic ControlTL;DRMethod模型Action表示Co-Fine-TuneReal-Time Inference如何实现连续运动控制训练数据Exper 阅读全文

posted @ 2025-08-09 14:33 fariver 阅读(142) 评论(0) 推荐(0)

公告