HER2 Expression Prediction with Flexible Multi-Modal Inputs via Dynamic Bidirectional Reconstruction

Qin, Jie; Yang, Wei; Su, Yan; Zhu, Yiran; Li, Weizhen; Pan, Yunyue; Pan, Chengchang; Qi, Honggang

Computer Science > Multimedia

arXiv:2506.10006 (cs)

[Submitted on 12 Apr 2025 (v1) , last revised 31 Jul 2025 (this version, v2)]

Title: HER2 Expression Prediction with Flexible Multi-Modal Inputs via Dynamic Bidirectional Reconstruction

Title: 通过动态双向重建的灵活多模态输入进行HER2表达预测

Authors:Jie Qin, Wei Yang, Yan Su, Yiran Zhu, Weizhen Li, Yunyue Pan, Chengchang Pan, Honggang Qi

Abstract: In breast cancer HER2 assessment, clinical evaluation relies on combined H&E and IHC images, yet acquiring both modalities is often hindered by clinical constraints and cost. We propose an adaptive bimodal prediction framework that flexibly supports single- or dual-modality inputs through two core innovations: a dynamic branch selector activating modality completion or joint inference based on input availability, and a cross-modal GAN (CM-GAN) enabling feature-space reconstruction of missing modalities. This design dramatically improves H&E-only accuracy from 71.44% to 94.25%, achieves 95.09% with full dual-modality inputs, and maintains 90.28% reliability under single-modality conditions. The "dual-modality preferred, single-modality compatible" architecture delivers near-dual-modality accuracy without mandatory synchronized acquisition, offering a cost-effective solution for resource-limited regions and significantly improving HER2 assessment accessibility.

Abstract: 在乳腺癌HER2评估中，临床评估依赖于H&E和IHC图像的结合，但获取这两种模态通常受到临床限制和成本的阻碍。我们提出了一种自适应双模态预测框架，通过两项核心创新灵活支持单模态或双模态输入：一种动态分支选择器，根据输入可用性激活模态补全或联合推理，以及一种跨模态生成对抗网络（CM-GAN），实现缺失模态的特征空间重建。这种设计显著提高了仅H&E的准确性，从71.44%提高到94.25%，在完整双模态输入下达到95.09%，并在单模态条件下保持90.28%的可靠性。 “双模态优先，单模态兼容”的架构在无需强制同步采集的情况下实现了接近双模态的准确性，为资源有限地区提供了一种成本效益高的解决方案，并显著提高了HER2评估的可及性。

Comments:	8 pages,6 figures,3 tables,accepted by the 33rd ACM International Conference on Multimedia(ACM MM 2025)
Subjects:	Multimedia (cs.MM) ; Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
Cite as:	arXiv:2506.10006 [cs.MM]
	(or arXiv:2506.10006v2 [cs.MM] for this version)
	https://doi.org/10.48550/arXiv.2506.10006

Submission history

From: Wei Yang [view email]
[v1] Sat, 12 Apr 2025 11:24:06 UTC (720 KB)
[v2] Thu, 31 Jul 2025 07:57:18 UTC (4,234 KB)

Computer Science > Multimedia

Title: HER2 Expression Prediction with Flexible Multi-Modal Inputs via Dynamic Bidirectional Reconstruction

Title: 通过动态双向重建的灵活多模态输入进行HER2表达预测

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Multimedia

Title: HER2 Expression Prediction with Flexible Multi-Modal Inputs via Dynamic Bidirectional Reconstruction Show Chinese title

Title: 通过动态双向重建的灵活多模态输入进行HER2表达预测

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Title: HER2 Expression Prediction with Flexible Multi-Modal Inputs via Dynamic Bidirectional Reconstruction