Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:2510.02037

帮助 | 高级搜索

定量生物学 > 定量方法

arXiv:2510.02037 (q-bio)
[提交于 2025年10月2日 ]

标题: 用于训练和基准测试H&E切片中乳腺癌分割的多中心数据集

标题: A Multicentric Dataset for Training and Benchmarking Breast Cancer Segmentation in H&E Slides

Authors:Carlijn Lems, Leslie Tessier, John-Melle Bokhorst, Mart van Rijthoven, Witali Aswolinskiy, Matteo Pozzi, Natalie Klubickova, Suzanne Dintzis, Michela Campora, Maschenka Balkenhol, Peter Bult, Joey Spronck, Thomas Detone, Mattia Barbareschi, Enrico Munari, Giuseppe Bogina, Jelle Wesseling, Esther H. Lips, Francesco Ciompi, Frédérique Meeuwsen, Jeroen van der Laak
摘要: 全自动全幻灯片图像(WSIs)的语义分割,使用苏木精和伊红(H&E)染色,在乳腺癌的大规模基于人工智能的生物标志物分析中是必不可少的。 然而,现有的乳腺癌分割公共数据集缺乏支持模型泛化性和在异质患者队列中稳健生物标志物验证所需的形态多样性。 我们引入了BrEast cancEr hisTopathoLogy sEgmentation(BEETLE),一个用于H&E染色乳腺癌WSIs多类语义分割的数据集。 它包含来自三个合作临床中心和两个公共数据集的587个活检和切除样本,使用七种扫描仪数字化,并涵盖了所有分子亚型和组织学等级。 通过多样化的注释策略,我们收集了四个类别的注释——浸润性上皮、非浸润性上皮、坏死和其他——特别关注现有数据集中代表性不足的形态,如原位导管癌和分散的lobular肿瘤细胞。 该数据集的多样性和对乳腺癌自动化生物标志物定量迅速增长领域的相关性,确保了其高重用潜力。 最后,我们提供了一个精心整理的多中心外部评估集,以实现乳腺癌分割模型的标准基准测试。
摘要: Automated semantic segmentation of whole-slide images (WSIs) stained with hematoxylin and eosin (H&E) is essential for large-scale artificial intelligence-based biomarker analysis in breast cancer. However, existing public datasets for breast cancer segmentation lack the morphological diversity needed to support model generalizability and robust biomarker validation across heterogeneous patient cohorts. We introduce BrEast cancEr hisTopathoLogy sEgmentation (BEETLE), a dataset for multiclass semantic segmentation of H&E-stained breast cancer WSIs. It consists of 587 biopsies and resections from three collaborating clinical centers and two public datasets, digitized using seven scanners, and covers all molecular subtypes and histological grades. Using diverse annotation strategies, we collected annotations across four classes - invasive epithelium, non-invasive epithelium, necrosis, and other - with particular focus on morphologies underrepresented in existing datasets, such as ductal carcinoma in situ and dispersed lobular tumor cells. The dataset's diversity and relevance to the rapidly growing field of automated biomarker quantification in breast cancer ensure its high potential for reuse. Finally, we provide a well-curated, multicentric external evaluation set to enable standardized benchmarking of breast cancer segmentation models.
评论: 我们的数据集可在 https://zenodo.org/records/16812932 获取,我们的代码可在 https://github.com/DIAGNijmegen/beetle 获取,我们的基准测试可在 https://beetle.grand-challenge.org/ 获取。
主题: 定量方法 (q-bio.QM) ; 计算机视觉与模式识别 (cs.CV); 图像与视频处理 (eess.IV)
引用方式: arXiv:2510.02037 [q-bio.QM]
  (或者 arXiv:2510.02037v1 [q-bio.QM] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.02037
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Carlijn Lems [查看电子邮件]
[v1] 星期四, 2025 年 10 月 2 日 14:09:21 UTC (6,081 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
q-bio.QM
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.CV
eess
eess.IV
q-bio

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号