亚洲色情网

搜神记波多野结衣

好色女教师

栏目分类

热点资讯

好色女教师

你的位置：徐可欣拳交 > 好色女教师 > 成人小电影全自动拼装产物！斯坦福发布数据集：完毕拼装指示真实场景4D对皆

成人小电影全自动拼装产物！斯坦福发布数据集：完毕拼装指示真实场景4D对皆

发布日期：2024-12-03 21:09 点击次数：124

成人小电影全自动拼装产物！斯坦福发布数据集：完毕拼装指示真实场景4D对皆

剪辑：LRST 好困成人小电影

【新智元导读】斯坦福大学推出的IKEA Video Manuals数据集，通过4D对皆拼装视频和证据书，为AI贯通和实践复杂空间任务提供了新的挑战和商榷基准，让机器东谈主或AR眼镜指示产物拼装不再是梦。

跟着东谈主工智能本事的快速发展，让机器贯通并实践复杂的空间任务成为一个伏击商榷标的。

在复杂的3D结构拼装中，贯通和实践证据书是一个多线索的挑战：从高层的任务经营，到中层的视觉对应，再到底层的动作实践，每一步都需要精准的空间贯通才智。

斯坦福Vision Lab最新推出的IKEA Video Manuals数据集，初度完毕了拼装指示在真实场景中的4D对皆，为商榷这一复杂问题提供了伏击基准。

互助者指出了这项使命在空间智能商榷中的伏击地位：「这项使命将拼装经营从2D鼓吹到3D空间，通过贯通底层视觉细节（如部件怎样集合），不停了空间智能商榷中的一个主要瓶颈。这是首个全面评估模子在真实场景中对精致3D细节贯通才智的基准。」

着名科技博主、前微软计策商榷者Robert Scoble：「有了这项使命，机器东谈主将或者自主拼装IKEA产物，或者通过AI入手的AR眼镜。」

残害性的多模态对皆

拼装一件IKEA产物需要贯通多种局面的指示：证据书提供了任务的举座领悟和要津门径；视频展示了详备的拼装过程；而3D模子则界说了部件之间的精准空间干系。

IKEA Video Manuals初度将这三种模态进行了细粒度的对皆：

137个手册门径被左证安设视频细分为1120个具体子门径，捕捉了完满的拼装过程；

通过6D Pose跟踪，精准纪录每个部件的空间轨迹；

在视频帧、产物拼装证据书和3D模子之间设立密集对应干系。

丰富的产物类型与场景

数据集涵盖了6大类36种IKEA产物，粗略单的凳子到复杂的柜子，呈现了不同难度的拼装任务。每种产物都包含完满的3D模子、拼装证据书和实质拼装视频。

这些视频来自90多个不同的环境，包括室表里场景、不同光照条款，真实反馈了产物拼装的各样性。

真实天下的复杂性

与在实验室环境下收罗的数据比拟，来自互联网的真实视频呈现了更丰富的挑战：

部件宽泛被手或其他物体笼罩

相似部件识别（念念象一下四条一模雷同的桌子腿！）

录像机频繁转移、变焦，带来参数臆想的穷困

室表里场景、不同光照条款下的各样性成人小电影

这些真实场景下的复杂性，让数据集更能反馈实质诈欺中的难点。

意旨的是，商榷团队发现25%的产物存在多种有用的拼装国法。比如Laiva架子就有8种不同的拼装方式！这各样种性真实地反馈了实践天下中拼装任务的纯真性。

系统的标注进程

为了得回高质地的标注，应酬真实视频带来的挑战，商榷团队设立了一套可靠的标注系统：

识别并标注相机参数变化的要津帧，确保片断内的一致性

联接2D-3D对应点和RANSAC算法进行相机参数臆想

通过多视角考证和时序敛迹保证标注质地

中枢任求实验评估

基于IKEA Video Manuals数据集，团队遐想了多个中枢任务来评估刻下AI系统在贯通和实践产物拼装，以及空间推理(spatial reasoning)方面的才智：

1. 在基于3D模子的分割（Segmentation）与姿态臆想 (Pose Estimation)

输入3D模子和视频帧，要求AI完成两个任务：准确分割出特定部件区域，并臆想其在视频中的6目田度姿态。实验测试了最新的分割模子(CNOS， SAM-6D)和姿态臆想模子(MegaPose)。

基于3D模子的分割

基于3D模子的姿态臆想

分析发现它们在以下场景推崇欠安：

- 笼罩问题：手部笼罩、近距离拍摄导致部分可见、笼罩引起的深度臆想纰谬

- 特征缺失：郁闷纹理的部件难以分割、对称部件的标的难以判断

- 寥落拍摄角度（如俯瞰）导致的方法误判

2. 视频见解分割Mask Trackin

评估了SAM2和Cutie两个最新的视频跟踪模子。与其他基准数据集比拟，它们在IKEA Video Manuals数据集上推崇显耀着落：

• SAM2: 从其他数据集的85-90%降至73.6%

• Cutie: 从85-87%降至54.7%

主要挑战包括：

- 相机通顺导致见解丢失

- 难以差别外不雅相似的部件（如多个相易的桌腿）

- 长时间跟踪的准确度难以保捏

3. 基于视频的格式拼装

团队建议了一个改进的拼装系统，包含要津帧检测、部件识别、姿态臆想和迭代拼装四个门径。实验弃取两种确立：

使用GPT-4V自动检测要津帧：效果不睬念念，Chamfer Distance达0.55，且1/3的测试视频未能完成拼装，反馈GPT-4V对拼装要津时刻的识别才智有限；

使用东谈主工标注的要津帧：即便如斯，由于姿态臆想模子的局限性，最终Chamfer Distance仍达0.33

这些实验效果揭示了刻下AI模子的两个要津局限：

1、视频贯通才智不及：刻下的视频模子对时序信息的分析仍然较弱，往往停留在单帧图像分析的层面

2、空间推理受限：在真实场景的复杂条款下（如光照变化、视角变嫌、部件笼罩等），现存模子的空间推理才智仍显不及

曩昔瞻望

IKEA Video Manuals的推出，通过商榷怎样将拼装指示对皆到真实场景，为空间智能商榷提供了一个伏击的评估基准。

念念象一下，曩昔你戴上AR眼镜，就能看到IKEA产物的每个拼装门径被明晰地投影在目前，系统还能及时领导你是否安设正确；；或者，机器东谈主或者像东谈主类雷同，仅通过不雅看视频就学会拼装复杂的产物。IKEA Video Manuals的推出让这些设念念离实践更近了一步。

通过提供真实场景下的多模态数据，这个数据集为空间智能商榷提供了伏击的评估基准。咱们期待看到更多残害性的进展，让AI系统的确贯通和实践复杂的空间任务。

作家先容

第一作家刘雨浓，斯坦福大学狡计机科学硕士生，附庸于斯坦福SVL实验室（Vision and Learning Lab），由吴佳俊解说指示。本科毕业于爱丁堡大学电子与狡计机科学专科（荣誉学位）。曾在德克萨斯大学奥斯汀分校从事商榷实习。现在正在寻找2025年秋季入学的博士契机。

吴佳俊，斯坦福大学助领悟说，附庸于SVL和SAIL实验室。麻省理工博士，清华姚班本科。手脚样式指示解说。

Juan Carlos Niebles，Salesforce AI Research商榷主任，斯坦福大学狡计机科学系兼职解说，斯坦福视觉与学习实验室（SVL）调治主任。在狡计机视觉和机器学习范畴有隆起孝顺，曾获多项伏击奖项

刘蔚宇，斯坦福大学博士后商榷员，在CogAI组和SVL实验室从事商榷。专注于机器东谈主感知、建模和交互范畴，奋勉于开辟能通过简便话语号召完成恒久任务的机器东谈主系统。手脚样式共同指示。

李曼玲成人小电影，西北大学狡计机科学系助领悟说，曾为斯坦福大学博士后，现为斯坦福拜谒学者。商榷意思集合在话语、视觉、机器东谈主过火社会影响等交叉范畴，奋勉于开辟真实且真实的多模态系统。

上一篇：黑丝做爱盘前必读丨5G边界化诓骗“扬帆”行径升级决议印发；说念指再创历史新高

下一篇：情色电影下载无论钥匙有些许锈迹，这一招去强硬铁锈，几分钟盖头换面

Powered by 徐可欣拳交 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024