博客

医学AI的下一个十年，不缺大模型，缺一个ImageNet

医学AI真正缺少的，可能不是又一个更大的模型，而是一个类似ImageNet的基础设施——一个能够系统记录当前生物状态、干预动作、未来状态变化的基础数据与评估体系。医学AI的下一个十年，不缺大模型。真正缺的，是一个关于生命状态转移的共同基础设施。谁能定义state、action、transition，谁就可能定义下一代AI医学的底层坐标系。

熊江辉 · 2026-05-10

过去十几年，人工智能最重要的转折点之一，并不是某一个模型突然变聪明了，而是整个领域终于有了一个共同基础设施：ImageNet。

ImageNet表面上是一个图像数据库，但它真正改变计算机视觉的地方，不只是数据量，而是它为全世界的研究者定义了同一个任务、同一套标签体系、同一种评估方式。正因为有了这个共同坐标系，AlexNet、VGG、ResNet等模型才能在同一个赛道上快速迭代，最终推动计算机视觉进入深度学习时代。

今天，医学AI正处在一个类似的前夜。

我们已经有越来越多的医学大模型、医学问答系统、组学基础模型、虚拟细胞、数字孪生、AI药物发现平台和真实世界数据平台。Arc Institute发布的State模型，已经开始尝试预测细胞在药物、细胞因子和基因扰动下的响应；也有研究直接提出Medical World Model，用于在治疗条件下模拟肿瘤未来状态；IEEE TBME也将Digital Twins / AI World Models作为未来生物医学工程的重要方向，强调通过多模态数据模拟健康轨迹、辅助治疗干预和疾病监测。

但是，我越来越强烈地感觉到：医学AI真正缺少的，可能不是又一个更大的模型，而是一个类似ImageNet的基础设施。

更准确地说，医学世界模型需要一个面向生命系统的TransitionNet：

> 一个能够系统记录"当前生物状态—干预动作—未来状态变化"的基础数据与评估体系。

在图像AI中，基本任务是：

> image → label

而在医学世界模型中，真正关键的任务应该是：

> state + action → next state

> 当前生命状态 + 干预动作 → 未来状态变化

这就是医学世界模型区别于传统医学AI的地方。

传统医学AI更擅长回答：

这个人有没有病？

这个影像像不像癌症？

这个指标风险高不高？

这篇文献说了什么？

但医学世界模型真正要回答的是一个更根本的问题：

> 如果我们对一个生命系统施加某种干预，它会朝什么方向变化？

一、医学AI的下一个瓶颈，不是模型参数，而是数据结构

过去几年，医学AI的主旋律是"大模型"。

更大的语言模型，更大的多模态模型，更大的医学知识库，更强的问答能力，更好的文献总结能力。

这些都很重要。

但如果我们把医学AI的未来仅仅理解为"更会回答医学问题的大模型"，那可能低估了这个领域真正的机会。

医学的核心不是回答问题，而是改变生命轨迹。

一个医生面对患者时，真正重要的并不只是知道"这是什么病"，而是判断：

- 当前状态是如何形成的？

- 哪些因素正在推动系统恶化？

- 哪些节点是可以干预的？

- 哪种干预可能带来状态改善？

- 改善应该通过哪些指标验证？

- 如果没有改善，问题出在哪里？

- 如果出现副作用，系统为何偏离预期？

这些问题，本质上都不是单纯的知识问答问题，而是状态转移问题。

也就是说，医学AI的下一个十年，不只是要让模型读懂医学知识，而是要让模型逐步学习：

> 生命系统如何响应干预。

这就需要一种新的数据结构。

今天很多医学数据是静态的、孤立的、横截面的。

有检测数据，但没有干预记录。

有干预记录，但没有复测。

有复测，但没有剂量、时间、依从性。

有临床结果，但没有机制标注。

有组学数据，但没有状态转移。

有病例描述，但没有可计算的前后变化。

这样的数据当然有价值，但很难训练真正的医学世界模型。

真正稀缺的是：

> longitudinal state–action–next-state data

> 纵向的状态—动作—下一状态数据。

这是医学世界模型的燃料。

二、为什么医学需要自己的ImageNet？

ImageNet的伟大之处，不只是它收集了很多图片。

更重要的是，它让计算机视觉领域第一次拥有了一个共同坐标系。

在ImageNet之前，不同研究者可以各自做各自的数据集、各自的标签、各自的评估，很难比较谁真的进步了。ImageNet出现后，大家终于可以在同一个任务上竞争、验证和迭代。

医学AI今天也有类似问题。

我们有太多模型，但缺少共同任务。

我们有太多数据，但缺少共同结构。

我们有太多指标，但缺少共同评估。

我们有太多"智能系统"，但很少能回答同一个核心问题：

> 给定一个生命系统的当前状态和一个干预动作，模型能否估计其后续状态变化方向？

医学世界模型的ImageNet，不应该是一个普通数据库。

它不应该只是病例库。

不应该只是影像库。

不应该只是组学仓库。

不应该只是文献知识图谱。

也不应该只是电子病历大表。

它应该是一套围绕状态转移构建的基础设施。

它至少应该包含五个部分：

1. State representation：如何表示一个人的当前生物状态；

2. Action ontology：如何标准化描述药物、营养、运动、睡眠、细胞治疗等干预；

3. Transition record：如何记录干预后的状态变化；

4. Evidence chain：如何连接靶点、通路、表型和验证指标；

5. Benchmark task：如何评价模型是否真的学会了状态转移。

这才是医学世界模型真正需要的ImageNet。

它不是把医学问题简单变成分类问题，而是为医学AI建立一个新的共同坐标系。

三、从"识别疾病"到"模拟干预"

医学AI的第一阶段，是识别。

识别影像中的病灶。

识别病历中的诊断。

识别基因变异的风险。

识别一个人是否属于某种疾病亚型。

医学AI的第二阶段，是预测。

预测疾病风险。

预测住院概率。

预测药物反应。

预测复发可能。

预测生存期。

但医学AI的第三阶段，应该是模拟干预。

> 这个人未来风险高不高？

> 哪些干预可能改变这个人的未来轨迹？

这一步，是从prediction到intervention reasoning的转变。

它要求模型不再只是建立"特征—标签"的映射，而是学习：

> 状态如何形成，干预如何作用，系统如何转移，证据如何验证。

这也是为什么"世界模型"这个概念对医学如此重要。

在机器人、自动驾驶和强化学习中，世界模型的价值在于：智能体可以在内部模拟行动后果，比较不同选择，然后再决定如何行动。

医学当然不能简单照搬机器人世界模型。生命系统远比游戏环境复杂，也不能随意试错。

但医学确实需要一种更加谨慎、可审计、可验证的世界模型思想：

> 不是为了让AI任意控制人体，而是为了让医学干预的状态转移逻辑变得更清楚。

医学世界模型的意义，不是制造一个更大的黑箱，而是建立一个更可审计的生命系统模拟器。

四、医学世界模型不是凭空出现的，它有很深的科学传统

医学世界模型并不是一个凭空出现的新词。

从更长的科学史看，医学一直在尝试建立人体系统的可计算模型。心脏电生理建模、虚拟心脏和数字孪生，就是其中非常重要的先例。

张恒贵教授等学者长期从事心脏细胞、组织和三维心脏电活动的数学建模与仿真工作，通过离子通道动力学、组织传导模型、三维解剖结构和电生理方程，模拟心律失常、缺血状态、电传播和心电图变化。

这类工作给我们一个重要启发：

> 真正有价值的医学模型，往往不是黑箱分类器，而是能够把结构、机制、动力学和可验证输出连接起来的系统模型。

今天的虚拟细胞、数字孪生和医学世界模型，可以看作这种系统建模传统在AI、多组学和真实世界数据时代的扩展。

例如，Arc Institute的State模型尝试预测细胞在药物、细胞因子和基因扰动下的响应；MeWM则直接使用Medical World Model概念，探索在治疗条件下模拟肿瘤未来状态。

这些工作都说明，医学AI正在从静态识别和风险预测，逐步走向干预条件下的状态转移模拟。

但要让这种方向真正走向可积累、可比较、可验证的科学基础设施，仅有模型还不够。我们还需要类似ImageNet那样的共同数据结构和评估体系。

不同的是，医学世界模型需要的不是：

> image → label

> state + action → next state

> 当前生命状态 + 干预动作 → 后续状态变化。

五、为什么要强调"可驾驭性"？

医学世界模型如果只是预测器，仍然不够。

一个模型可以预测一个人的风险升高，但这并不能自动告诉我们如何改变这个轨迹。

医学真正关心的是：

- 哪些状态可以被测量？

- 哪些异常可以被解释？

- 哪些干预可以被描述？

- 哪些转移可以被验证？

- 哪些偏差可以被追踪？

- 哪些失败可以被反思和修正？

在这一点上，我们此前提出的SEWO / Steerable Medicine World Model（可驾驭医学世界模型）框架，强调医学世界模型不能只追求预测准确率，而应具备可定义状态、可描述干预、可推演转移、可审计机制、可追踪偏差的能力。

相关思想已在预印本 World Models for Biomedicine: A Steerability Framework 中提出，并在 steerable.world 上进行了框架化呈现。

需要强调的是，这一框架并不是一个已经验证的临床治疗系统，而是一种面向未来生物医学世界模型的结构约束和证据链设计原则。

它提醒我们，医学世界模型的关键不只是"能预测什么"，而是：

> 能否被研究者和医生在明确边界内审计、质疑、修正和驾驭。

这也是医学世界模型与普通大模型非常不同的地方。

普通大模型更像一个知识和语言系统。

医学世界模型必须成为一个状态、干预、转移和反馈系统。

它不能只会说。

它必须能被验证。

六、为什么现在是窗口期？

我认为现在讨论"医学世界模型的ImageNet"，不是太早，而是刚刚好。

原因有五个。

第一，多组学检测正在成熟

基因组、转录组、蛋白组、代谢组、甲基化组、单细胞组学等技术，正在让我们越来越有能力测量生命系统的内部状态。

过去医学只能粗略观察表型。

现在我们开始能看到更底层的分子扰动、通路变化和细胞状态。

没有状态测量，就没有世界模型。

第二，纵向健康数据正在增加

可穿戴设备、连续血糖监测、长期体检、家庭检测、远程随访和数字健康平台，正在让个体健康轨迹变得可记录。

医学数据正在从单点快照走向连续时间序列。

这对世界模型非常关键。

因为世界模型关心的不是某一刻"是什么"，而是系统如何随时间变化。

第三，干预数据正在变得更丰富

药物、营养、运动、睡眠、心理压力、补充剂、细胞治疗、再生医学、生活方式管理，都可以成为医学世界模型中的action。

过去这些数据非常混乱。

但如果能够标准化记录，它们就可能成为极其宝贵的状态转移数据。

第四，AI世界模型成为下一代AI的重要方向

世界模型正在成为AI领域的前沿方向之一。无论是机器人、自动驾驶、物理世界模拟，还是生成式环境建模，本质上都在探索一个问题：

> 模型如何理解世界随行动而变化？

医学也需要这个能力。

只不过医学世界模型不能追求炫目的生成效果，而必须追求机制可信、边界清楚、验证严格和安全可控。

第五，个体化医学正在逼近N-of-1时代

未来医学越来越不只是"平均有效"，而是要回答：

> 对这个人，在这个状态下，什么干预可能有效？

这天然需要N-of-1状态转移数据。

一个结构化的N-of-1干预，本质上就是一次小型世界模型实验：

> individual state → intervention → individual transition

如果这类数据能够被标准化、复测、验证和积累，它将成为医学世界模型最重要的燃料。

七、为什么长寿医学可能是最好的起点之一？

如果要为医学世界模型建立一个类似ImageNet的基础设施，我认为长寿医学可能是最好的起点之一。

原因很简单。

第一，衰老是连续状态，不是单一疾病标签

传统疾病往往以诊断标签为中心。

但衰老不是一个简单标签。它是一个连续变化的系统状态，涉及炎症、代谢、免疫、线粒体、表观遗传、蛋白稳态、干细胞耗竭、细胞衰老等多个层面。

这非常适合世界模型。

因为世界模型最擅长处理的，不是静态分类，而是动态状态。

第二，长寿医学天然需要复测

长寿医学关心的不是一次性诊断，而是长期轨迹。

一个干预是否有意义，必须通过数月、数年甚至更长时间的复测来判断。

这天然形成：

> baseline state → intervention → follow-up state

也就是世界模型所需要的状态转移结构。

第三，长寿干预天然多样

饮食、运动、睡眠、压力管理、药物、补充剂、细胞治疗、再生医学、环境暴露管理，都可能影响衰老状态。

这为action ontology提供了丰富场景。

第四，个体差异巨大

同样的干预，不同人的响应可能完全不同。

这意味着长寿医学不能只依赖平均效应，而必须关注个体状态、个体响应和个体轨迹。

这正是N-of-1状态转移建模的核心。

第五，长寿医学需要新的信任基础

今天长寿产业最大的问题之一，是信任不足。

用户不知道哪些干预真的有用。

医生不知道如何评估复杂组合干预。

企业很难证明长期价值。

投资人也很难判断平台是否有真正护城河。

如果能建立一套"状态—干预—转移"的数据基础设施，长寿医学就可能从营销驱动，走向证据驱动。

八、这件事的真正价值：定义下一代AI医学基础设施

医学世界模型的ImageNet，一旦建立，其意义不只是训练几个模型。

它可能改变整个医学AI的基础逻辑。

1. 它会改变医学AI的竞争壁垒

未来医学AI的核心竞争，不一定是谁有最大模型，而是谁有最好的状态转移数据。

大模型可以调用。

算法可以追赶。

界面可以复制。

但高质量、可复测、可验证、可追踪的状态转移数据，很难短期复制。

谁能建立这个数据飞轮，谁就可能拥有真正的平台级壁垒。

2. 它会改变医学研究的组织方式

传统研究往往围绕疾病、药物或终点组织。

未来的一部分医学研究，可能会围绕状态转移组织：

> 哪类状态，经过哪类干预，最可能产生哪种转移？

这会让医学研究从"疾病标签中心"逐渐走向"动态系统中心"。

3. 它会改变个体化医学的证据结构

个体化医学最大的问题，是证据难。

大规模随机对照试验适合评估群体平均效应，但不一定能回答每个个体的状态转移问题。

如果我们能系统积累N-of-1状态转移数据，就可能形成一种新的证据补充方式：

> 群体证据 + 机制证据 + 个体状态转移证据。

这对精准医学、长寿医学、罕见病、复杂慢病管理都有重要意义。

4. 它会改变AI药物发现

AI药物发现不能只停留在靶点预测、分子生成和结合亲和力预测。

真正关键的是：

> 一个干预是否能把异常生物状态推向期望方向？

如果有了状态—干预—转移数据，药物发现就能更接近真实生命系统响应，而不是只在静态靶点层面优化。

5. 它会改变投资逻辑

过去投资人看医学AI，常常会问：模型有多强？数据有多少？是否有产品？是否有医生使用？是否能商业化？

未来可能还要多问一个问题：

> 这家公司是否在积累可复用的状态转移数据？

如果没有状态转移数据，很多医学AI产品可能只是工具。

如果有持续积累的状态转移数据飞轮，它就可能成为平台。

九、这件事的特点：它不是一个普通数据集

医学世界模型的ImageNet，和传统AI数据集有很大不同。

第一，它是纵向的，不是横截面的

普通数据集往往记录某一时刻的样本和标签。

医学世界模型数据集必须记录时间。

没有时间，就没有转移。

没有转移，就没有世界模型。

第二，它是干预相关的，不是纯观察的

观察数据很重要，但世界模型需要action。

如果只有状态，没有干预，模型只能学习相关性。

如果有状态、干预和后续变化，模型才可能学习响应。

第三，它是多层级的，不是单一模态的

生命状态不能只靠一个指标表示。

它需要连接：分子、细胞、通路、器官、表型、行为、环境、临床背景。

这决定了医学世界模型数据集天然是多模态、多尺度、多时间点的。

第四，它必须可审计，不是黑箱标签

医学不能只给一个"有效/无效"的标签。

每个状态转移都应该尽可能连接机制证据：靶点、通路、生物标志物、临床指标、安全信号、不确定性。

第五，它必须持续更新，不是一次性发布

ImageNet可以作为静态benchmark存在很长时间。

但医学世界模型的数据基础设施，必须不断吸收新数据、新干预、新复测、新验证和新失败案例。

它更像一个生命状态转移数据飞轮，而不是一次性数据集。

十、最大的挑战是什么？

这件事意义巨大，但也非常难。

挑战一：状态表示极其复杂

一个人的生命状态，不可能被一个诊断标签概括。

如何把多组学、体检、生活方式、症状、器官功能、环境暴露和病史组织成可计算的state representation，是第一大挑战。

挑战二：干预动作很难标准化

医学中的action比机器人中的action复杂得多。

药物有剂量、频率、疗程、组合、依从性。

运动有类型、强度、频率、持续时间。

饮食有结构、热量、时间窗口、营养组成。

补充剂和生活方式干预更加复杂。

如果action不能标准化，模型就很难学习。

挑战三：复测数据稀缺

很多医学数据只有一次检测。

但世界模型需要前后变化。

这意味着必须重新设计数据采集流程，让检测、干预、复测、反馈成为闭环。

挑战四：因果混杂严重

真实世界中，一个人往往同时改变饮食、运动、睡眠、药物和补充剂。

状态变化到底来自哪个因素？

不同干预之间是否协同或拮抗？

如何处理混杂因素？

这需要非常谨慎的研究设计和统计方法。

挑战五：安全和伦理要求极高

医学世界模型不能像游戏模型一样自由试错。

任何涉及干预的模型，都必须明确边界：什么只是研究假设；什么可以作为健康管理建议；什么需要医生判断；什么不能自动推荐；什么必须经过监管和临床验证。

挑战六：商业模式和开放标准之间存在张力

如果这套基础设施完全封闭，行业难以形成共同标准。

如果完全开放，企业又很难形成持续投入的商业回报。

如何在开放benchmark、隐私保护、商业激励和科研协作之间取得平衡，是非常现实的问题。

十一、我们大致应该怎么做？

这篇文章不展开技术路线。下一篇可以专门谈"如何构建医学世界模型的ImageNet"。

这里只说方向。

我认为，大致需要五步。

第一步：定义最小可行任务

不要一开始试图模拟整个人体。

应该先从一个可测、可复测、可干预、可验证的场景开始。

例如：细胞扰动响应、长寿医学状态转移、炎症状态干预、代谢状态改善、DNA甲基化年龄变化、慢病风险状态转移。

先把一个任务做清楚，比一开始追求大而全更重要。

第二步：建立状态标准

明确baseline state应该记录什么。

例如：分子指标、通路指标、临床指标、表型指标、行为指标、环境背景、时间信息。

第三步：建立干预标准

明确action应该如何描述。

例如：干预类型、剂量、频率、持续时间、组合关系、依从性、机制标注。

第四步：建立复测和转移记录

必须系统记录follow-up state。

没有复测，就没有transition。

没有transition，就没有医学世界模型。

第五步：建立评估任务

让不同模型回答同一类问题：

- 能否预测状态变化方向？

- 能否识别关键机制？

- 能否提出验证指标？

- 能否识别风险和不确定性？

- 能否在新个体、新干预、新时间点上泛化？

这就是医学世界模型benchmark的雏形。

十二、最重要的判断：谁定义state、action、transition，谁定义未来

医学AI的下一个十年，不缺大模型。

更准确地说，医学AI当然仍然需要更强的模型，但更大的模型本身并不能自动解决医学世界模型所需的状态转移学习问题。

真正稀缺的，是能让模型学习生命状态转移的数据基础设施。

我甚至认为，未来医学AI的平台级公司，不一定是拥有最大语言模型的公司，而可能是最早建立以下能力的公司：

> 持续测量生命状态；

> 标准化记录干预动作；

> 系统复测状态变化；

> 构建机制证据链；

> 形成状态转移数据飞轮。

这就是医学世界模型时代的基础设施竞争。

谁能定义state，谁就定义医学AI看到什么。

谁能定义action，谁就定义医学AI如何理解干预。

谁能定义transition，谁就定义医学AI如何学习生命变化。

谁能定义benchmark，谁就定义整个领域如何进步。

结语：ImageNet让AI学会看见世界，医学世界模型的ImageNet要让AI学会理解生命如何响应干预

ImageNet让机器视觉第一次拥有了共同坐标系。

它让AI学会了更系统地看见世界。

而医学世界模型需要的ImageNet，不是让AI识别更多疾病标签，而是让AI学会理解生命如何响应干预。

这件事一旦做成，医学AI就不再只是会回答问题，不再只是会总结文献，不再只是会预测风险。

它将开始真正学习：

> 状态如何形成，干预如何作用，系统如何转移，证据如何验证。

医学AI的下一个十年，不缺大模型。

真正缺的，是一个关于生命状态转移的共同基础设施。

谁能把这件事做成，谁就可能定义下一代AI医学的底层坐标系。

1. Deng J, Dong W, Socher R, et al. ImageNet: A Large-Scale Hierarchical Image Database. CVPR. 2009.

2. Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. 2015.

3. Ha D, Schmidhuber J. World Models. 2018. https://worldmodels.github.io/

4. Arc Institute. Arc Institute's first virtual cell model: State. https://arcinstitute.org/news/virtual-cell-model-state

5. Theodoris C, et al. Predicting cellular responses to perturbation across diverse contexts with State. bioRxiv. 2025.

6. Yang Y, Wang ZY, Liu Q, et al. Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning. arXiv:2506.02327.

7. IEEE Transactions on Biomedical Engineering. Digital Twins / AI World Models. https://www.embs.org/tbme/research-highlights/digital-twins-ai-world-models/

8. Acosta JN, Falcone GJ, Rajpurkar P, Topol EJ. Multimodal biomedical AI. Nature Medicine. 2022.

9. Xia Y, Wang K, Zhang H. Parallel Optimization of 3D Cardiac Electrophysiological Model Using GPU.

10. Aslanidi OV, Colman MA, Stott J, et al. 3D virtual human atria: A computational platform for studying clinical atrial fibrillation. Progress in Biophysics and Molecular Biology. 2011.

11. Xiong J. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. doi:10.20944/preprints202605.0366.v1.

12. SEWO — Steerable Medicine World Model. https://steerable.world

声明：本文仅用于科研、技术和产业趋势讨论，不构成医学建议、诊断建议或治疗建议。任何面向临床应用的医学世界模型，都需要经过前瞻性验证、安全性评估、伦理审查、监管审查和专业临床监督。

xiongjianghui.com

← 返回博客