李飞飞空间智能首秀:AI靠单图生成3D国际,可探究交互

liukang20242天前718吃瓜1186
房屋 西风 发自 凹非寺量子位 | 大众号 QbitAI
就在刚刚,李飞飞空间智能首个项目忽然发布:
仅凭仗1张图,就能生成一个3D游戏国际的AI体系!
要害在于,生成的3D国际具有交互性
可以像玩游戏那样,自由地移动相机来探求这个3D国际,浅景深、希区柯克变焦等操作均可行。
随意输入一张图:
除了这张图本体,可探求的3D国际里,一切东西都是AI生成的:
这些场景在浏览器中实时烘托,装备了可控的摄像机作用和可调理的模仿景深(DoF)。
你乃至可以改动其间物体色彩,动态调整布景光影,在场景中刺进其他方针。
此外,之前大多数生成模型猜测的是像素,而这个AI体系直接猜测3D场景
所以场景在你移开视野再回来时不会发生改变,并且遵从根本的3D几许物理规矩。
网友们直接炸开锅,谈论区“难以置信”一词直接刷屏。
其间不乏Shopify创始人Tobi Lutke等知名人士点赞:
还有不少网友以为这直接为VR打开了新国际。
官方则表明“这仅仅是3D原生生成AI未来的一个缩影”:
咱们正在尽力尽快将这项技能交到用户手中!
李飞飞自己也榜首时刻共享了这项作用并表明:
不管怎样理论化这个主意,用言语很难描绘经过一张相片或一句话生成的3D场景互动的体会,期望咱们喜爱。
现在替补名单请求已敞开,有内容创作者现已用上了。
仰慕的口水不争气地从眼旮旯了下来。
Beyond the input image
官方博文表明,今日,World labs迈出了通往空间智能的榜首步:
发布一个从单张图片生成3D国际的AI体系。Beyond the input image, all is generated。
并且是输入任何图片。
并且是可以互动的3D国际——用户可以经过W/A/S/D键来操控上下左右视角,或许用鼠标拖动画面来逛这个生成的国际。
官网博文中放了许多个可以试玩的demo。
这次真的引荐咱们都去试玩一下,上手体会和看视频or动图的感触十分的不一样。
(直通车按常规,放在文末)
好,问题来了,这个AI体系生成的3D国际还有什么值得探求的细节之处?
开麦拉作用
World Labs表明,一旦生成,这个3D国际就会在浏览器中实时烘托,给人的感觉跟在看一个虚拟摄像头似的。
并且,用户可以精准地操控这个摄像头。
所谓“精准操控”,有2种玩法,
一是可以模仿景深作用,也便是只能明晰对焦间隔相机必定间隔的物体。
二是能模仿滑动变焦(Dolly Zoom),也便是电影摄影技巧中十分经典的希区柯克变焦。
它的特色是“镜头中的主体巨细不变,而布景巨细改动”。
许多驴友去西藏、新疆玩儿的时分都期望用希区柯克变焦拍视频,有很强的视觉冲击力。
在World Labs展现中,作用如下(不过在这个玩法里,没方法操控视角):
3D作用
World Labs表明,大多数生成模型猜测的都是像素,与它们不同,咱这个AI猜测的是3D场景。
官方博文罗列了三点优点:
榜首,耐久实际。
一旦生成一个国际,它就会一向存在。
不会由于你看向其他视角,再看回来,原视角的场景就会改动了。
第二,实时操控。
生成场景后,用户可以经过键盘或鼠标操控,实时在这个3D国际畅游移动。
你乃至可以仔细调查一朵花的细节,或许在某个当地私自调查,用天主视角留意这个国际的一举一动。
第三,遵从正确的几许规矩。
这个AI体系生成的国际,是恪守3D调集物理根本规矩的。
某些AI生成的视频,尽管作用很梦核,但可没有咱的这种深度的真实感哟(doge)。
官方博文中还写道,发明一个可视化3D场景,最简略的方法是制造深度图。
图中每个像素的色彩,都是由它和摄像头的间隔来决议的。
当然了,用户可以运用3D场景结构来构建互动作用——
单击就能与场景互了,包含但不限于忽然给场景打个聚光灯。
动画作用?
那也是so easy啦。
走进绘画国际
团队还玩儿了一把,以“全新的方法”体会一些经典的艺术作品。
全新,不只在于可互动的交互方法,还在于就靠输入进去的那一张图,就能补全原画里没有的部分。
然后变成3D国际。
这是梵高的《夜晚露天咖啡座》:
这是爱德华·霍普的《夜行者》:
发明性的工作流
团队表明,3D国际生成可以十分自然地和其它AI东西相结合。
这让创作者们可以用他们现已用随手的东西感触新的工作流体会。
举个栗子:
可以先用文生图模型,从文本国际来到图画国际。
由于不同模型有各自拿手的风格特色,3D国际可以把这些风格迁徙、承继过来。
在同一prompt下,输入不同风格的文生图模型生成的图片,可以诞生不同的3D国际
World Labs和空间智能
“World Labs”公司,由斯坦福大学教授、AI教母李飞飞在本年4月创建。
这也是她被曝出的初次创业。
而她的创业方向是一个新概念——空间智能,即:
视觉化为洞悉;看见成为了解;了解导致举动。
在李飞飞看来,这是“处理人工智能难题的要害拼图”。
只用了3个月时刻,公司就突破了10亿美元估值,成为新晋独角兽。
揭露材料显现,a16z、NEA和Radical Ventures是领投方,Adobe、AMD、Databricks,以及老黄的英伟达也都在投资者之列。
个人投资者中也不乏大佬:Karpathy、Jeff Dean、Hinton……
本年5月,李飞飞有一场揭露的15分钟TED讲演。
她洋洋洒洒,共享了关于空间智能的更多考虑,要害包含:
视觉才能被以为引发了寒武纪大迸发——一个动物物种很多进入化石记载的时期。开端是被迫体会,简略让光线进入的定位,很快变得愈加自动,神经体系开端进化……这些改变催生了智能。多年来,我一向在说摄影和了解不是一回事。今日,我想再弥补一点:仅仅看是不行的。看,是为了举动和学习。假如咱们想让AI逾越当时才能,咱们不只想要可以看到和说话的AI,咱们还想要可以举动的AI。空间智能的最新里程碑是,教计算机看到、学习、举动,并学习看到和举动得更好。跟着空间智能的加快前进,一个新时代在这个良性循环中正在咱们眼前打开。这种循环正在催化机器人学习,这是任何需求了解和与3D国际互动的具身智能体系的要害组成部分。据报道,该公司的方针客户包含视频游戏开发商和电影制片厂。除了互动场景之外,World Labs还方案开发一些对艺术家、设计师、开发人员、电影制造人和工程师等专业人士有用的东西。
现在伴跟着空间智能首个项目的发布,他们要做的事也逐步具象化了起来。
但World Labs表明,现在发布的仅仅一个“前期预览”:
咱们正在尽力改善咱们生成的国际的规划和逼真度,并测验新的方法让用户与之互动。
参阅链接:
[1]https://www.worldlabs.ai/blog
[2]https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN
[3]https://x.com/theworldlabs/status/1863617989549109328
告发/反应

相关文章

谷歌推出新AI东西Stitch:文字、图片可秒变 UI 规划与前端代码

谷歌推出新AI东西Stitch:文字、图片可秒变 UI 规划与前端代码

IT之家 5 月 21 日音讯,谷歌 I/O 2025 大会首日活动现已完毕,很多更新与新东西发布,其间包含 Gemini 模型的晋级、谷歌查找中 AI 形式的更广泛推行以及用于媒体创造的全新生成式...

年度工作神器!如何用AI做视频、图片、PPT、表格?

年度工作神器!如何用AI做视频、图片、PPT、表格?

来历:IT时报这些原生AI使用“承揽”才智日常作者/ IT时报记者潘少颖 孙永会修正/ 潘少颖 孙妍编者按不知从何时起,AI不再是严寒的代码与算法,而是咱们身边不可或缺的灵动同伴。作业中,不管什么问题...

同声传译、全新AI形式查找!谷歌重磅发布“最强通用AI模型”

同声传译、全新AI形式查找!谷歌重磅发布“最强通用AI模型”

当地时刻5月20日,谷歌2025年度I/O开发者大会展现了AI、多模态模型等最新效果。谷歌CEO皮查伊着重Gemini 2.5 Pro为最强通用AI模型,将在Chrome、查找及Gemini App中...

AI年代,图片库失掉价值了吗?

AI年代,图片库失掉价值了吗?

本文来自微信群众号:有界UnKnown,作者:山茶,修改:钱江,原文标题:《AI年代,图库会被媒体扔掉吗?》,题图来历:AI生成微信群众号后台最近更新了一项新功用。文章修改在挑选刺进图片时,除了本来从...

TOPBRAND|海天味业赴港上市获同意;迪卡侬拟售我国事务部分股权;沃尔玛推出AI购物助理;M.A.C录用构思总监

TOPBRAND|海天味业赴港上市获同意;迪卡侬拟售我国事务部分股权;沃尔玛推出AI购物助理;M.A.C录用构思总监

修改 | summer-IPO动态-海天味业赴港上市已获港交所同意图片来历:品牌官方近来,海天味业赴港上市已获港交所同意,将筹资约10亿美元。早在本年1月13日,佛山市海天调味食物股份有限公司向港交所...

怎么区分AI生成的图片、文字、声响?这些技巧请把握

怎么区分AI生成的图片、文字、声响?这些技巧请把握

数字化的今日,AI技能正在逐步改动咱们的日子方式和作业方式。它让日子愈加舒适、作业愈加高效。但是,一些心怀叵测之人凭借AI东西,出产发布仿真度高的虚伪信息,利诱我们的视野。怎么有用区分AI生成的图片、...

友情链接: