首页
色哥哥
亚洲色情网
色情婷婷
搜神记波多野结衣
色妮姑
好色女教师

好色女教师

你的位置:徐可欣 拳交 > 好色女教师 > 成人小电影 全自动拼装产物!斯坦福发布数据集:完毕拼装指示真实场景4D对皆

成人小电影 全自动拼装产物!斯坦福发布数据集:完毕拼装指示真实场景4D对皆

发布日期:2024-12-03 21:09    点击次数:121

成人小电影 全自动拼装产物!斯坦福发布数据集:完毕拼装指示真实场景4D对皆

剪辑:LRST 好困成人小电影

【新智元导读】斯坦福大学推出的IKEA Video Manuals数据集,通过4D对皆拼装视频和证据书,为AI贯通和实践复杂空间任务提供了新的挑战和商榷基准,让机器东谈主或AR眼镜指示产物拼装不再是梦。

跟着东谈主工智能本事的快速发展,让机器贯通并实践复杂的空间任务成为一个伏击商榷标的。

在复杂的3D结构拼装中,贯通和实践证据书是一个多线索的挑战:从高层的任务经营,到中层的视觉对应,再到底层的动作实践,每一步都需要精准的空间贯通才智。

斯坦福Vision Lab最新推出的IKEA Video Manuals数据集,初度完毕了拼装指示在真实场景中的4D对皆,为商榷这一复杂问题提供了伏击基准。

互助者指出了这项使命在空间智能商榷中的伏击地位:「这项使命将拼装经营从2D鼓吹到3D空间,通过贯通底层视觉细节(如部件怎样集合),不停了空间智能商榷中的一个主要瓶颈。这是首个全面评估模子在真实场景中对精致3D细节贯通才智的基准。」

着名科技博主、前微软计策商榷者Robert Scoble:「有了这项使命,机器东谈主将或者自主拼装IKEA产物,或者通过AI入手的AR眼镜。」

残害性的多模态对皆

拼装一件IKEA产物需要贯通多种局面的指示:证据书提供了任务的举座领悟和要津门径;视频展示了详备的拼装过程;而3D模子则界说了部件之间的精准空间干系。

IKEA Video Manuals初度将这三种模态进行了细粒度的对皆:

137个手册门径被左证安设视频细分为1120个具体子门径,捕捉了完满的拼装过程;

通过6D Pose跟踪,精准纪录每个部件的空间轨迹;

在视频帧、产物拼装证据书和3D模子之间设立密集对应干系。

丰富的产物类型与场景

数据集涵盖了6大类36种IKEA产物,粗略单的凳子到复杂的柜子,呈现了不同难度的拼装任务。每种产物都包含完满的3D模子、拼装证据书和实质拼装视频。

这些视频来自90多个不同的环境,包括室表里场景、不同光照条款,真实反馈了产物拼装的各样性。

真实天下的复杂性

与在实验室环境下收罗的数据比拟,来自互联网的真实视频呈现了更丰富的挑战:

部件宽泛被手或其他物体笼罩

相似部件识别(念念象一下四条一模雷同的桌子腿!)

录像机频繁转移、变焦,带来参数臆想的穷困

室表里场景、不同光照条款下的各样性成人小电影

这些真实场景下的复杂性,让数据集更能反馈实质诈欺中的难点。

意旨的是,商榷团队发现25%的产物存在多种有用的拼装国法。比如Laiva架子就有8种不同的拼装方式!这各样种性真实地反馈了实践天下中拼装任务的纯真性。

系统的标注进程

为了得回高质地的标注, 应酬真实视频带来的挑战,商榷团队设立了一套可靠的标注系统:

识别并标注相机参数变化的要津帧,确保片断内的一致性

联接2D-3D对应点和RANSAC算法进行相机参数臆想

通过多视角考证和时序敛迹保证标注质地

中枢任求实验评估

基于IKEA Video Manuals数据集,团队遐想了多个中枢任务来评估刻下AI系统在贯通和实践产物拼装,以及空间推理(spatial reasoning)方面的才智:

1. 在基于3D模子的分割(Segmentation)与姿态臆想 (Pose Estimation)

输入3D模子和视频帧,要求AI完成两个任务:准确分割出特定部件区域,并臆想其在视频中的6目田度姿态。实验测试了最新的分割模子(CNOS, SAM-6D)和姿态臆想模子(MegaPose)。

基于3D模子的分割

基于3D模子的姿态臆想

分析发现它们在以下场景推崇欠安:

- 笼罩问题:手部笼罩、近距离拍摄导致部分可见、笼罩引起的深度臆想纰谬

- 特征缺失:郁闷纹理的部件难以分割、对称部件的标的难以判断

- 寥落拍摄角度(如俯瞰)导致的方法误判

2. 视频见解分割Mask Trackin

评估了SAM2和Cutie两个最新的视频跟踪模子。与其他基准数据集比拟,它们在IKEA Video Manuals数据集上推崇显耀着落:

• SAM2: 从其他数据集的85-90%降至73.6%

• Cutie: 从85-87%降至54.7%

主要挑战包括:

- 相机通顺导致见解丢失

- 难以差别外不雅相似的部件(如多个相易的桌腿)

- 长时间跟踪的准确度难以保捏

3. 基于视频的格式拼装

团队建议了一个改进的拼装系统,包含要津帧检测、部件识别、姿态臆想和迭代拼装四个门径。实验弃取两种确立:

使用GPT-4V自动检测要津帧:效果不睬念念,Chamfer Distance达0.55,且1/3的测试视频未能完成拼装,反馈GPT-4V对拼装要津时刻的识别才智有限;

使用东谈主工标注的要津帧:即便如斯,由于姿态臆想模子的局限性,最终Chamfer Distance仍达0.33

这些实验效果揭示了刻下AI模子的两个要津局限:

1、视频贯通才智不及:刻下的视频模子对时序信息的分析仍然较弱,往往停留在单帧图像分析的层面

2、空间推理受限:在真实场景的复杂条款下(如光照变化、视角变嫌、部件笼罩等),现存模子的空间推理才智仍显不及

曩昔瞻望

IKEA Video Manuals的推出,通过商榷怎样将拼装指示对皆到真实场景,为空间智能商榷提供了一个伏击的评估基准。

色吧小说

念念象一下,曩昔你戴上AR眼镜,就能看到IKEA产物的每个拼装门径被明晰地投影在目前,系统还能及时领导你是否安设正确;;或者,机器东谈主或者像东谈主类雷同,仅通过不雅看视频就学会拼装复杂的产物。IKEA Video Manuals的推出让这些设念念离实践更近了一步。

通过提供真实场景下的多模态数据,这个数据集为空间智能商榷提供了伏击的评估基准。咱们期待看到更多残害性的进展,让AI系统的确贯通和实践复杂的空间任务。

作家先容

第一作家刘雨浓,斯坦福大学狡计机科学硕士生,附庸于斯坦福SVL实验室(Vision and Learning Lab),由吴佳俊解说指示。本科毕业于爱丁堡大学电子与狡计机科学专科(荣誉学位)。曾在德克萨斯大学奥斯汀分校从事商榷实习。现在正在寻找2025年秋季入学的博士契机。

吴佳俊,斯坦福大学助领悟说,附庸于SVL和SAIL实验室。麻省理工博士,清华姚班本科。手脚样式指示解说。

Juan Carlos Niebles,Salesforce AI Research商榷主任,斯坦福大学狡计机科学系兼职解说,斯坦福视觉与学习实验室(SVL)调治主任。在狡计机视觉和机器学习范畴有隆起孝顺,曾获多项伏击奖项

刘蔚宇,斯坦福大学博士后商榷员,在CogAI组和SVL实验室从事商榷。专注于机器东谈主感知、建模和交互范畴,奋勉于开辟能通过简便话语号召完成恒久任务的机器东谈主系统。手脚样式共同指示。

李曼玲成人小电影,西北大学狡计机科学系助领悟说,曾为斯坦福大学博士后,现为斯坦福拜谒学者。商榷意思集合在话语、视觉、机器东谈主过火社会影响等交叉范畴,奋勉于开辟真实且真实的多模态系统。



Powered by 徐可欣 拳交 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024