成千上万居民,一边做着家务或者干着农活,一边参与全球规模最大的AI行动。这样的事,现在每天都在江苏的宿迁发生。
这些居民头戴的数据采集设备,会记录下他们擦桌子、炒菜、缝纫服装、照顾老人、剪枝摘果等各种动作数据。人们可能并不完全了解这件事的价值,但它确实在解决具身智能产业的根本瓶颈——“数据荒”。
机器人学习的不是知识,而是经验
过去几年,中国机器人的硬件与运动控制技术——“小脑”发展迅猛。四足机器人攀爬山地、人形机器人跑马拉松……在电机、减速器、关节控制等物理层面,中国企业交出了令世界瞩目的成绩单。中商产业研究院数据显示,2025年中国具身智能市场规模约9150亿元,同比增长20.4%,预计2026年将突破10900亿元。
然而,硬件竞赛的热闹背后,一个短板日益凸显:机器人缺乏真正的“大脑”。那些能表演、能炫技的机器人,无法理解真实的物理世界,连拧瓶盖、磕鸡蛋这类基础动作都做不好,遑论走进家庭与工厂。
问题的根源在于数据。训练一个具备泛化能力、适配多场景的高质量具身大模型,行业共识是需要数千万小时甚至上亿小时的训练数据。而现实是,全行业能获取的具身相关数据集加起来不过几十万小时——差了足足两个数量级。物理AI真机交互数据量,不足大语言模型的两万分之一。这不是单纯的技术问题,而是一场结构性短缺。
更被低估的是数据质量与生产逻辑。许多人以为架几台摄像机拍下人类动作即可,但原始视频对机器人训练几乎毫无价值——它只记录了“发生了什么”,而机器人需要知道“怎么发生的”:手在哪里、物体在哪里、三维空间结构如何、动作意图是什么……这些信息必须经过精密处理与专业标注,才能转化为有效数据。
机器人学习的不是知识,而是经验。 它需要知道如何抓起装满水的杯子、如何调整力度、如何在失败后修正动作。这些人类长期积累的“操作经验”从未被数字化。正是这一痛点,让行业目光集中到一种此前被忽视的数据类型上——第一视角人类操作数据。
为什么巨头都在争夺“第一视角数据”
过去一年,第一视角(Ego-centric)人类操作数据,正在成为全球具身智能领域最稀缺的资源。英伟达、Tesla、Figure、1X等公司纷纷大规模采集人类操作视频,用于训练机器人的模仿学习(Imitation Learning)。
相比传统互联网视频只能告诉模型“发生了什么”,第一视角数据能让机器人理解“动作为何这样发生”。它不仅记录结果,还保留了视线移动、手眼协同、空间关系、动作修正以及长任务决策链——这些隐性信息,正是机器人形成泛化能力的关键。
英伟达今年提出的EgoScale框架,明确将大规模第一视角数据视为机器人训练的核心基础设施。研究发现,随着这类数据规模持续扩大,Vision-Language-Action(VLA)模型的真实任务成功率会稳定提升。机器人领域正在出现类似大模型的数据规模定律(scaling law):模型能力上限,取决于真实世界行为数据的规模与质量。
然而,这类数据过去几乎不存在。实验室的标准化数据无法覆盖现实场景的随机性——仓库包裹每天不同,家庭环境不断变化,布料会褶皱滑动。这意味着,具身智能最终竞争的,不只是模型能力,更是谁能持续获得大规模真实场景中的第一视角人类数据。
为什么是京东做这件事
今年3月,京东官宣启动人类历史上最大规模的具身数据采集行动:两年内动员超过10万名内部员工、50万外部协作人员,在宿迁就会有10万人参与,完成1000万小时无本体真实场景视频数据,外加100万小时机器人本体数据。
这背后真正的稀缺资源不是采集设备,而是场景。目前行业多数公司依赖实验室采集或小规模众包,难以持续获得高频、长流程、跨场景的人类操作数据。而京东的特殊性在于,它是中国少数同时拥有超大规模真实产业流、物流流与劳动流的平台型企业:3600多个智能库房、遍布全国的配送站、超万家线下门店、20余万家合作药房,同时还是全国规模最大的家政服务公司,5万多名家政人员服务千万家庭——零售、物流、健康、家政、工业全场景覆盖。
基于场景优势,京东打造了全球首个采、存、标、训、评、仿、测全链路具身智能数据基础设施。
在数据采集端,JoyEgoCam通过车规级传感器与4K镜头完成第一视角采集,即便在快递分拣、货物搬运等高速运动场景下,也能稳定记录操作过程。
在数据处理端,原始视频进入京东云AI数据湖后,会经过任务切分、语义标注、深度重建、手势关键点定位等处理,最终转化为机器人可直接学习的结构化数据。
治理完成的数据再接入京东云JoyBuilder模型开发平台,模型训练效率提升了3.5倍——过去训练1亿+数据的千卡训练时间需要15小时,如今仅需22分钟。
基于这套数据体系训练的JoyAI-RA具身大模型,在仿真与真机测评中,任务执行平均成功率达到73.5%,超过英伟达GR00T N1.6、Physical Intelligence Pi0.5等行业头部模型。
在宿迁,居民在家当“机器人老师”
5月20日,京东宣布全国首个具身智能数据采集社区已在宿迁正式运行。这是京东今年3月宣布建设全球最大具身数据采集中心以来,在具身智能数据基础设施建设方面的又一重要进展,也标志着京东距两年内积累超1000万小时人类真实场景视频数据的目标更进一步。
这座苏北城市与京东的渊源可追溯二十余年。这里不仅是刘强东的老家,也是京东早期重要的客服中心与物流基地,宿迁积累了大量熟悉电商物流场景的劳动力,当京东的数据采集需求与宿迁的人力资源相遇,一种新的产业合作模式便自然生长出来。从电商中心、客服中心、物流枢纽、再到今天的具身智能布局,京东在宿迁投资已超过200亿元。
在宿迁,参与数据采集的市民分布在各行各业,果园、服装厂、康养机构……他们摘果子、折衣服、递药杯、搬货,日常劳作被JoyEgoCam精准捕捉。这些市民成为真正的“机器人老师”,他们的真实行为动作为机器人提供了理解人类操作的优质“教材”。
这是一种双赢:京东获得高多样性的真实场景数据;宿迁迎来一批全新数字职业——数据采集师、数据标注师、数据处理师、质量检验师,实现家门口的高质量就业。这也回应了社会关切的重要命题:具身智能并非只会替代就业,而是可以创造新职业、带动劳动者共同成长。
更深层的意义在于,这是一条数字经济时代的产业下沉新路径:将前沿科技的基础能力落地地方,与本地就业深度绑定,让数据生产与价值收益实现本地化共享。宿迁继电商物流之后,再次迎来关键发展机遇。这一模式未来可复制到更多城市,形成可规模化的数字经济样板。
不做封闭的数据王国:京东要当行业的“水电煤”
为了进一步提升数据规模,京东还推出了Real to Sim数据泛化服务:将真实人类动作转化为仿真数据,再通过Sim to Real反向渲染生成逼真的机器人训练数据,实现数据高效扩增。这意味着,机器人数据开始具备类似“自我繁殖”的能力。在整个过程中,数据基础设施的重要性,开始超越单一模型本身。
京东收集的数据,并非只用于自身模型,而是以行业基础设施的定位,为全行业提供数据支撑。京东具身智能数据交易平台已正式上线,首批定向开放EgoLive高精标注数据集,这是目前业内质量最高的开源数据集:60FPS超高帧率,覆盖300余个真实任务场景。
此外,京东还邀请合作伙伴汇入数据资源,共建规模化、标准化的数据生态。这种“搭台”姿态指向一个更大的战略雄心:成为具身智能时代的基础设施提供商。
在这套生态体系中,上游是算法公司、AI芯片企业以及数据标注服务商;中游是各类仓储机器人、配送机器人等硬件制造商;下游带动系统集成、运维服务等相关产业。
与此同时,京东的产业落地多线并行。在零售侧,JoyInside方案已与近200个家电家居、机器人、玩具品牌合作,2026年将助力机器人品牌伙伴销售额突破百亿元。在物流侧,搭建机器人售后维修生态,机器人救护车服务覆盖海内外,专业工程师团队将扩至万人规模。在工业侧,打造一站式工业供应链服务,实现机器人制造物料100%覆盖。
AI的关键战场在物理世界
过去十年,AI的主战场在数字世界——大语言模型用海量算力逼近认知边界,却终究是“旁观者”:能写出操作手册,却从未真正拧开过一个瓶盖。
下一个十年,决战将在物理世界。 或许正是因为这样的判断,京东在今年618启动会上明确提出,将打造全球最大物理世界运营中心,推动AI从千行百业走进千家万户。
具身智能的使命,不是仿真“纸上谈兵”,而是走进仓库、工厂与家庭,在真实物理环境中感知、决策、行动。这需要的不是更多文本或图像,而是人类从未被数字化的操作经验——如何抓握、如何应对布料褶皱、如何在失败中修正动作。这些经验只能在真实场景中采集,并通过大规模、高质量的数据基础设施,转化为机器人的“肌肉记忆”。
当大模型企业还在算力与电价上内卷时,京东已将人、场景、真实操作数据作为核心生产要素,构建起连接数字与物理世界的产业护城河,将物理操作转化为可计算、可复用的数字资产,让机器人从“看懂”世界到真正“理解”。
当机器人掌握理货、清洁、照护、配送等技能,它们将不再是实验室里的炫技展品,而是承担真实劳动的伙伴。而人,在训练机器人的过程中,将日常经验升华为驱动下一代AI的核心资产——这或许是人工智能从数字世界走向物理世界、与实体经济和社会民生协同发展的最佳路径。