基于卷积神经网络的数字组织病理图像分类算法研究论文

2020年9月25日16:00:27基于卷积神经网络的数字组织病理图像分类算法研究论文已关闭评论

基于卷积神经网络的数字组织病理图像分类算法研究论文

摘要

在现有肿瘤医学临床诊断中,病理学诊断是最直观、确切的金标准。传统 病理医生的人工镜下阅片方式不仅容易受主观经验的影响,且因病理图像数据 量而导致耗时耗力。随着数字病理成像技术的成熟,目前全景数字病理逐渐成 为临床病理诊断重要工具。然而,全景数字组织病理图像具有高分辨率、大尺 度和复杂性等特点,因此,如何实现病理切片图像全自动处理和智能分析是依 然是一个技术挑战难题。

依靠人工提取和分析特征的传统机器学习算法在处理超大尺度像素的病理 图像来说存在非常困难且耗费大量的人力和物力,无法满足实际临床应用需求。 虽然卷积神经网络算法在特征自动提取和计算效率上提高,在医学影像分析得 到了广泛应用,然而如何克服上述全景病理的计算分析的问题依然存在。

为解决上述难题,本论文通过应用卷积神经网络的方法对组织病理图像的 处理进行了较为深入的研究和验证:研究全景数字组织病理图像中感兴趣区域 的快速检测算法;从临床实际设计更具聚焦效率与解释性的分类算法;分析验 证卷积神经网络的临床应用场景和价值。

基于病理图像尺寸较大、信息量丰富、分层存储等特性,论文首先提出了 一种基于卷积神经网络的快速检测病理图像感兴趣区域的方法。与直接进行分 割的方法需要比较精细的轮廓标签不同,本论文的方法只需图像的类别标签即 可完成模型的训练,这一方法相比于直接分割方法更简单、快速。

其次,在分类算法方面,与传统方法采用单一图像尺度的病理图像进行分 析不同,论文通过结合临床实际诊断的步骤和相关的理论,提出了一种基于注 意力机制的深度多尺度特征的卷积神经网络的分类方法;方法通过对不同的尺 度特征学习不同的权重比例,而后对多个尺度的特征进行融合后学习最终以实 现分类;算法的结果统计也论证了本研究方法的可行性。

最后,在实际分类诊断上面,本文通过应用卷积神经网络的方法,对临床 的组织病理图像分类问题进行了应用研究,并将算法结果与临床病理医生进行 深入对比分析,卷积网络模型取得了平均准确度为0.905的结果。

关键词:病理图像分类,卷积神经网络,计算机辅助诊断,注意力机制

ABSTRACT

Pathological diagnosis is the most direct and accurate gold standard in the clinical diagnosis of cancer. Traditional pathologists1 method of reading films under artificial microscope is not only susceptible to subjective experience, but also time-consuming and laborious due to the amount of pathological image data. With the maturity of digital pathological imaging technology, panoramic digital pathology has gradually become an important tool for clinicopathological diagnosis. However, panoramic digital histopathological images are characterized by high resolution, large scale and complexity, so it is still a technical challenge to realize automatic processing and intelligent analysis of pathological section images.

Traditional machine learning algorithms, which rely on manual extraction and analysis of features, are very difficult and consume a lot of manpower and material resources in processing super large pixel pathological images, which cannot meet the needs of actual clinical application. Although the algorithm of convolutional neural network improves the automatic feature extraction and computational efficiency, and is widely used in medical image analysis, the problem of how to overcome the computational analysis of panoramic pathology still exists.

In order to solve the above problems, this paper conducts in depth research and verification on the histopathological image processing by using the method of convolutional neural network. From the clinical practice design more focused efficiency and explanatory classification algorithm; The clinical application scenarios and value of convolutional neural network were analyzed and verified.

Based on the characteristics of pathological images such as large size, rich information and hierarchical storage, this paper firstly proposes a fest method of detecting the region of interest of pathological images based on convolutional neural network. Different from the method of direct segmentation, which requires more precise contour labels, the method of this paper can complete the training of the

Abstract

model only with the category label of the image, which is simpler and faster than the method of direct segmentation.

Secondly, in terms of classification algorithm, this paper proposes a classification method of deep multi scale convolutional neural network based on attention mechanism by combining the steps of clinical diagnosis and related theories, which is different from the traditional method of using single image scale for pathological image analysis. Methods by learning different weight ratios of different scale features, and then learning the features of multiple scales by fusion, the classification is finally realized. The result statistics of the algorithm also proves the feasibility of this method.

Finally, in the actual classification diagnosis, this paper applied the method of convolutional neural network to study the classification of clinical histophological images, and carried out in depth comparative analysis between the algorithm results and pathologists. The average accuracy of the convolutional network model was 0.905.

Key Words: Classification of pathological images, Convolutional neural networks, Computer-aided diagnosis, Attentional mechanisms

1章绪论

1.1课题研究的背景和意义

根据卫计委官方数据统计显示,目前国内具有病理医生资质的医生仅1万余名,中国 的临床病理医生的现状是:三级医院的人数约为五点多名/家,二级医院的人数约为二点多 名/家,这一数量只相当于美国的1/7—1/5;而培养一名专业病理医生需要10・20年时间, 且病理相关资源分布不均,癌症患者数量不断递增,国内无法满足患者实际需求,其相关 发展也存在相对比较滞后的情况,这将直接或者间接地影响着中国十几亿人口的生活健康 水平[1]。

目前肿瘤的病理诊断和后期统计主要由工作经验与知识积累丰富的病理医生完成,其 评判结果易受主观性影响;癌症的亚分型类别较多,部分亚分型之间存在类似特征,且大 量病理图像数据由人工进行分析,不仅耗时还会因过度疲劳从而影响分析结论。国际最新 临床研究成果表明,人工对苏木精一伊红染色的肿瘤细胞核的统计分析容易产生误差,细 胞核百分率统计超过评估高达45%[2],分析结果易随病理医生的经验不同而产生较大差异 性,如对同一肿瘤,操作者之间差异性在10%-95%动态范围变化,造成假阴性诊断结果。 分析结果的准确性直接影响患者的治疗方案,给患者带来极大生命风险[3]。

人工智能在医学影像的分析应用中不断发展,组织病理诊断作为临床诊断的金标准, 人工智能方法辅助组织病理图像的诊断对于临床诊断意义重大[48]o但不可忽视的是,计 算机分析病理图像,同样会遇到难题和挑战:病理图像巨大的尺寸不容忽视,目前的硬件 设备处理整张病理图像仍旧十分困难,需要研究更符合实际的算法;另一方面,因为图像 组成复杂等问题,对算法有着更高的要求。这些均是本课题重点研究内容。

针对数字病理智能化分析的难题,采用卷积神经网络的深度学习算法可以快速对图像 进行检测和分类、提高分类精度、减少误诊率,不断接近甚至超过医生的经验诊断结果[13], 最终以期于对病人治疗,以及预后等给予关键的临床信息。

因此,通过图像自动分析提取特征信息并进行量化计算得出量化指标,其分析具有较 好的重复性、稳定性和鲁棒性;在得到精确诊断结果的同时,计算机进行自动化计算和提 取图像的特征信息,极大提高工作效率、降低医生工作负担,有效避免因工作量大而导致 分析结果误差[47]

同时,本课题的项目来源于:深圳市基础研究“基于折叠凹正则化三维深度学习的放 疗影像生物特征分析研究”。

1.2相关领域研究现状及分析

1.2.1卷积神经网络的发展历程

卷积网络是一种神经网络结构,通过多层非线性映射进行输入数据的计算,输出预测 结果。其本质是一种回归优化计算,在传统的多层感知网络结构中引入了反馈层,从而更 加优化预测结果[1]。过去几年,深度学习的应用在计算机视觉领域逐步推广, Krizhevskyetal 等人[4]在 2012 年的 ImageNet-challenge 中利用一种 Alex-Net 卷积神经网络 获得冠军后,基于深度学习在各行各业的应用与日俱增,无论是学术研究还是产业上的产 品应用,均不同程度涉及深度学习相关理论与方法,这一趋势还在不断升高。

图1.1深度学习在医学图像分析上应用的文献分布

深度学习由于训练时长、数据集和优化性能等问题的限制,较长一段时间处于蛰伏期。 2006年,G. Hinton等人[5][6]采用层优先单独预训练的方法,通过监督学习的算法进行网 络结构的微调且取得了较好的实验结果,自编码神经网络原型也由此得来。网络结构参数 计算方面,在D. Hubei等[7]的猫脑皮层研究中,其用于局部区域的感受与在方向选择的神 经元时发现,其特有的网络结构能够比较有效地对反馈神经网络的复杂性进行降低,在此 基础上提出卷积神经网络。卷积神经网络在很大程度上模拟了人类在视觉上的感知过程, 同时也不需要复杂的特征提取流程。这种网络结构利用权值共享的方式有效降低了网络结 构的计算复杂度,便于并行计算。由于卷积神经网络在计算性能和预测效果较好等优势, 该网络在医学图像上逐步加强应用,从最近几年的相关研究进展[8](如图1.1所示)可以 看出卷积神经网络在逐渐成为医学图像的主流分析计算模型。另外也可以看出:深度学习 在医学图像分析上的应用集中在2016年后开始爆发式的增长,且目前深度卷积神经网络学 习在医学上主要集中在图像分割[9]、组织器官检测[10][11]、目标分类[12]等问题进行研究。 现阶段深度学习主流的网络模型包括卷积神经网络、循环神经网络、对抗神经网络等。

最近几年,国内外学者通过计算机模拟医生对疾病进行诊断,利用卷积神经网络智能 对疾病的诊断指标进行提取及诊疗分析。目前相关的科研成果不仅实现了专家水平的疾病 诊断,而且在某些方面性能还优于经验丰富的临床医生。斯坦福大学研究团队[13]利用深 度学习对肿瘤的诊断的最新成果发表在Nature-2017。该团队采用的网络模型是谷歌提出 的Inception网络,通过ImageNet (世界上最大的开源图像数据库,图像数量级别在百万) 进行了模型的预训练。最后的统计结果表明机器识别的准确率优于临床医生,其中机器得 到的准确率为72.1 土0.9%,而两名专家医生获得准确率是65.56%和66.0%。

  1. Wang等人[14]于2019年在Translation Medicine发表文章探讨深层卷积神经网络

(DCNN)是否具有提高诊断效率的潜力,以甲状腺结节的组织病理图像分类为实验,分 析观察者间的共识水平。实验通过训练Inception-ResNet-v2和VGG-19网络进行测试,以 确定甲状腺结节和间变性甲状腺癌的诊断效率,且对误诊病例进行分析。实验结果显示, VGG-19 的平均诊断准确度(97.34%)比 Inception-ResNet-v2 (94.42%)更好。适用于 7 种病理类型的VGG-19模型诊断准确度分别为88.33%, 98.57%, 98.89%, 100%, 100%, 92.44%, 92.44% o DCNN模型尤其是VGG-19,在区分甲状腺肿瘤病理图像上获得了较好 的准确性。对误诊病例的分析表明,DCNN模型具有促进组织病理的甲状腺疾病诊断的 潜力。

DeepMind团队[15]在Nature Medicine发表了人工智能对眼科疾病诊断最新成果

对常规的眼球扫描检查结果进行快速疾病诊断。结果与8位临床经验丰富的眼科医生进行 对比时发现:计算机错误率为5.5%, 8位临床医生最好的结果错误率分别是6.7%、6.8%, 错误率最高的高达24.1%,计算机最高是13.1%。结果表明基于深度学习的网络模型不仅 能达到专家水平甚至在某种程度上还能够超越医生,且不受医生主观判断和外界因素的影 响。

综上所述,卷积神经网络在医学图像处理与分析领域有十分巨大的潜力。卷积神经网 络与深度学习的应用将促进医学图像的量化分析,提高分析效率,降低医疗成本,减轻医 生工作负担,为临床诊断与决策提供辅助参考[47]o

1.2.2数字组织病理图像分割国内外发展现状

为与临床病理医师诊断步骤相符合,数字组织病理图像处理的第一步则需提取出图像 中的病变区域,即为感兴趣区域(Region of Interest,简称ROI)。在临床诊断中,由于病 理组织图像的尺寸巨大,这一步骤往往会耗费大量时间,因此需要通过算法来实现图像分 害叽数字组织病理图像包含丰富的信息,女口:细胞核大小、形状、细胞分布、染色情况等。 在深度学习之前,机器学习算法通过提取这些特征,将其转化为特征向量,采用分类器进 行分类并得到最终的分割结果。M. Balazsi等人[16]基于聚类来生成具有启发式规则的超像 素以获得ROI。M. Dundar等[17]试图通过使用从具有RF分类器的超像素提取的颜色,纹 理和梯度直方图特征来克服固定平铺的效果,来用于检测ROIo多实例学习(MIL)是一 种元算法,用于处理被标记好的样本集合而不是单独的每个样本的场景。多实例学习适用 于弱监督的训练数据。在数字组织病理学中,它主要应用于数据集有图像(即像素集合) 级标签而不是像素级标签,而这类分割是对像素进行分类的模型学习[18][19][20][21]o在 机器学习领域上,当训练数据的注释形式比机器学习系统输出的预期要弱时,W. Li等[22] 和P. Angshuman等[23]的工作中予以解决。其提出了用于肿瘤或良性组织的组织病理学图 像的图像级标记的方法,其主要是采用随机森林的方法去生成癌细胞的像素级水平预测。

在以上研究中,虽然基于机器学习算法的分割模型得到了较好的分割结果,但是与经验丰 富的临床医生的水平仍有一定差距,需要进一步提升。在特征的提取与选择时,有较强的 主观性,一些潜在的高维特征存在未充分利用的情况。

在深度学习出现后,开始以强监督网络为代表的全卷积网络对医学图像的感兴趣区域 进行识别。因此,全景数字病理图像同样可以借鉴这一理论,通过深度卷积网络的方法, 便可得到癌变区域或疑似癌变的区域。Qin等人[24]在2018年提出了一种基于特征金字塔 的图像语义分割算法(ResNet50・GICN・GPP)。算法通过补丁重采样算法减小单个样本尺寸、 扩大训练样本量,后基于ResNet50 (算法子结构)学习特征位置信息、GICN (算法子结 构)结构和反卷积网络集成多级特征。实验结果比其对比的方法在性能上提升10-20%, 充分证明了该方法的有效性oTokunaga等人[25]于2019年的CVPR会议上提出了一种新颖 的语义段修正方法——“自适应加权多字段” (AWMF-CNN)o方法能自适应地使用不同放 大倍率的输入图像定位多个癌症亚型区域,多个卷积神经网络以自适应方法根据输入图像 改变其权重,且综合利用了不同倍率图像的信息。实验结果胜过其他对比方法。同年在 ICCV会议,Chan等[26]提出了一种HistoSegNet方法用于组织学组织类型(HTT)的语义 分割,使用带HTT注释的数字病理图集(ADP)数据库进行补丁注释训练、计算梯度加权 类激活地图。该方法胜过其他更复杂的弱监督语义分割方法。

以上研究分析表明,在模型性能方面,深度学习相比于机器学习有较大提升,时常能 达到与临床医生相当的水平,实现了对图像的客观量化分析,可作为临床诊断的辅助手段 之一[13]。但是,主流的研究成果采用的分割方法需要许多轮廓的标签,由于组织病理图 像的大尺度和边界不清晰等特性,这类方法对组织病理图像存在较大困难。

1.2.3数字组织病理图像分类国内外发展现状

完成病变区域的选择后,需要依据病变区域的特点进行诊断,如判断癌症亚分型、癌 症分级等。在深度学习大范围应用之前,基于机器学习的分类算法通过基于直接的统计学、 概率分布等机器学习的方法。例如常见的决策树模型就是用来进行分类和回归任务的监督 学习方法[27]o它通过将决策过程分解为一系列连续测试来运作。这些测试形成树状结构, 其中每个决策对应于模型中的一个节点。Breiman等[28]和Cutler[29]等联合提出了通过随 机森林(RF)使用决策树集合来使其学习对数据变化更加鲁棒。在RF中,形成训练数据 的不同随机子集,并且对于每个子集,学习决策树。Cortes等[30]也提出了支持向量机 (SVM) ——一种通过求解样本的最大边距超平面的监督学习分类算法。它在训练样本映 射到表示空间。对于二进制分类任务(例如,肿瘤与正常),它实质上意味着它在表示空间 中学习线性分离器,使得训练样本根据其类别落在线的任一侧。基于机器学习的算法模型 虽然得到了较为准确的分类结果,但是与临床医生的诊断水平仍有差距,且在特征提取过 程中不可避免受主观性的影响,对特征的利用也不够充分。

随着设备的更新和深度学习的不断发展,卷积神经网络已经有不少成功的分类算法架

构。Araujo等人[31]通过检索不同尺度的信息包括细胞核和整个组织以实现乳腺癌的四分类,使用卷积神经网络提取特征后用于训练支持向量机分类器。四分类诊断的准确率为 77.8%,癌/非癌诊断的准确率为83.3%,敏感性为95.6%o 2018年,Rakhlin等人[32]在乳 腺癌病理的分类上,对深度卷积网络提取病理图像提取的特征使用梯度增强树进行分类并 取得了不错的结果。深度学习算法在数字组织病理图像的分类应用中较大提升了模型的性 能和效率。同年,纽约大学的Coudary等[33]用来自基因组数据共享数据库的肺癌切片对 Inception V3卷积网络模型进行训练,结构如图1.3所示,其结果与临床病理学家进行的结 果的对比,结果不分上下。在2019年,Alom等人[34]将残差递归卷积神经网络模型应用 于组织病理学图像分类评估64X64像素的非重叠小块图像,其中图像采用了数据增强技 术。残差递归卷积神经网络模型显示,用于增强补丁级别评估的测试准确率约为98.79%, 表明基于深度特征表示的方法在组织病理学图像分类问题上的表现优秀。

总结以上的研究成果,深度学习在数字组织病理图像分类方面同样有出色的表现,对 于一些简单的病例,通过深度学习模型可以快速得到准确的诊断结果,而对于一些较为复 杂的病例,也可为医生提供诊断参考,促进了临床诊断效率和准确率的提升。

图1.3 Inception V3网络结构

1.3数字病理图像分类存在的问题

从传统机器学习的方法对病理图像进行特征提取,到最近的深度卷积神经网络,说明 通过卷积神经网络对组织病理图像上的分类是可行的,并且在肺癌、乳腺癌上己经取得了 比较好的结果。不可忽视的是目前这些分类算法上也存在着众多问题。

一方面,组织病理图像直接用于分类数据量过大难以实现。

数字组织病理图像的像素以亿数量级作为单位,尺寸十分巨大,在目前的计算机容纳 能力下卷积神经网络直接计算整张全景病理图像是非常困难的,计算机难以计算更难以学 习,这对于实现组织病理的分类诊断是一个较大难题。因此,从组织病理图像选取特定的 区域以进行分类将成为一个重要的解决方向。研究卷积神经网络的算法以实现对病理图像 的感兴趣区域的快速分割,得到感兴趣区域的病理图像,对后续进一步分析诊断具有重大 意义。

另一方面,目前组织病理图像的应用分类比较单一尺度。

病理图像的存储结构一般是由1倍〜40倍之间的信息组成,蕴含着丰富信息,并且不 同范围、倍率所涵盖的信息均不相同。目前的分类算法主要是针对单一尺度下的病理图像 的切片进行分类分析。同时,临床病理医生在显微目镜或终端屏幕上对病理图像进行疾病 的诊断时,会不断移动视野或对倍率进行对比或兼具进行,根据其己有的经验对重点关注 的信息进行寻找以便得出分析结果和诊断结论。因此,在目前的分类算法研究中,也应结 合不同尺度的信息进行综合分析使得结果更加准确和更具解释性。

1.4论文的主要研究内容及结构

1.4.1 主要研究内容

本论文的主要研究内容是基于数字组织病理图像进行速度、准确率等各种评价指标更 优的分类算法研究,以及对算法的输入图像能够快速获得并增强。通过理论和实验探究, 实现对大尺度图像的分类处理,使得结果更具有临床实用价值。

论文的主要研究内容如下:

  • 建立多类癌症组织病理标注数据集;在应用深度学习这一技术,首要的也是核心 的即是数据集。一方面,网络模型的训练和学习是以一定量的标注好的数据集才 可以得以学习,这也是神经网络模型学习的必要条件,其才得以可以充分学习到 图像的特征,以实现网络最终的目标;另一方面,从病理图像数据集的本身出发, 由于数字组织病理图像的发展和标签制作的难度等问题,这在目前公开的数据当 中,带标签的数据集是比较稀少的,而临床数据集的收集和标签制作也需要较长 的时间来完成。因此,收集好癌症组织病理标签数据集是非常核心的,这对于后 续研究,以及相关的研究内容是基底。本文主要通过收集公开数据集的病理图像, 由临床医生进行相应的标签制作,以及收集临床数据集和相应的标签,以完成研 究的实际需要。
  • 研究组织病理图像的目标区域检测;目标区域的检测,主要是对病理图像的感兴 趣区域进行检测。根据临床分析的实际步骤和临床分析的需要,临床实际诊断中 是需要寻找在组织病理切片中,需要寻找出感兴趣的区域,然后对这个区域进行 相应的图像分析和进一步诊断。同时,组织病理图像巨大,可以方便、快速得检 测出感兴趣区域,将是一个重要的性能指标。而由于病理图像的轮廓和边界,并 不那么清晰明显,想到直接通过分割或者检测的方式学习出感兴趣区域是比较困 难的。因此,本文将研究组织病理的感兴趣区域的检测算法,通过构建一个分类 卷积网络,将实际的感兴趣区域的检测问题转化为一个分类的问题,以实现对组 织病理的感兴趣区域的检测,寻找出需要诊断的目标区域。同时,也为后续进一 步对感兴趣区域的诊断提供区域和相应的图像参考。
  • 研究病理图像癌症种类分类算法;临床病理中的应用中,病理进行癌症诊断是主 要的应用之一。并且,病理诊断也是癌症诊断的金标准即正确的对病理进行诊断 是诊断的最后一扇门。在随着智能诊断的不断发展,病理诊断的智能化也将成为 重要的趋势。本文根据己有数据集,结合临床实际,通过研究构建分类卷积神经 网络,通过改善神经网络的参数和框架,提高分类的结果,以期能达到与临床中 级相当程度的病理医生的结果。另外,临床实际诊断并不是针对局部或固定倍率 下而是在不同显微倍率下的病理图像进行的。因此,在分类的研究中,同时结合 不同尺度的病理图像进行分析,以期与临床的实际诊断的方法相结合,提高卷积 神经网络的准确性、可解释性和效果的真实性。
  • 病理图像分类算法评价指标和实验验证;卷积神经网络的发展以来,对算法的评 价有较多的性能指标,以恰当得对算法模型进行相适应的评估,从而有一个公信 的结果。根据本文的研究内容和重点,结合了病理图像的特性,设计了网络的具 体实验,挑选适配病理图像的性能评价指标,对实验结果进行展示,并对实验结 果进行总结和相应的分析,以证明在病理图像实验分析的可行性和正确性。

1.4.2论文组织结构

第1章为绪论部分,介绍了本论文的研究背景与研究意义,并且对卷积神经网络的研 究发展和相关现状进行了较为深度的分析,并寻找出目前病理图像分类存在的问题,从而 引出本论文的研究内容以及主要的论文结构。

第2章为相关的理论介绍,最主要介绍了病理图像的特性,这是卷积网络发展至今仍 然和自然图像的意义。同时对卷积神经网络的基础、相关的分割、分类结构进行了介绍。 同时,也介绍了本文应用的一种注意力机制。

第3章介绍了本文对病理图像的癌变区域进行快速检测的算法研究内容,通过对数据 集的准备,以及对网络结构的构建,对实验结构进行分析,展示了实验结果。

第4章介绍了本文基于注意力机制的病理图像的分类算法研究内容,通过对数据集的 准备,以及对基于注意力机制的网络结构的构建,对实验结构进行分析,展示了实验结果。

第5章主要介绍了本文对病理图像的分类算法研究的应用,通过对数据集的准备,以 及对网络结构的构建,对实验结果进行统计分析和总结,并相应地展示了实验结果。

第6章为工作总结和展望,对目前本文阶段性完成的研究工作进行分析和总结,并对 目前病理图像分类研究中仍然存在的问题总结,为下一步工作提供方向和指导。

2章相关理论介绍

2.1数字组织病理图像特性

本课题的研究对象是数字组织病理图像,病理图像是临床诊断的金标准,至今无任何 一项标准可以替代病理诊断。所以,正确了解数字组织病理图像的特性对于准确分析其意 义重大。算法的进一步研究中需针对性结合病理图像的特性。

本课题最大的前提就是全景数字组织图像的尺寸巨大,无论是机器处理,或是医生观 察,都需要付出极大的代价。全景幻灯图像主要以多倍率的形式生成和保存。对于在全景 图像中,病变区域的选择在低倍率下非常难分辨,高倍率下的处理非常耗时。

全景数字图像的正常查看需要专业软件才可以查看,并且占用较大内存,一般数字组 织病理的图像空间大小为200兆字节到10个吉字节之间,图像像素为长和宽分别为1万到

6万之间。并且,数字组织病理图像的存储是分倍率存储的,常见的倍数一般是从1倍到 40 倍存储(如图 2.1 所示,图片来源于 https://canielyonl7.grand-challenge.org/Background/)。

另外,数字组织病理图像的制成,是通过石蜡组织切片之后进行染色,采用的方法为 临床上比较常规的病理玻片制造的基本染色方法——H&E染色法[35],这也是本文研究对 象病理图像染色的主要染色方法。所谓H&E染色法即使用苏木精(hematoxylin)和伊红(eosin) 对细胞进行染色使之能够在镜下对正常和与病理组织的形态结构观察[36]o在染色中,细 胞核与苏木精结合染成蓝色,细胞浆和伊红结合染成红色。

所以,数字组织病理图像仍然是人工切片染色后制得玻片,再在专业的拍摄设备下拍 摄图像得到。因此,在人工制片的过程中容易由于操作不当或一些不可避免的环境条件影 响制片质量。例如,存在制片时染色剂不均匀、切下的组织粗暴不均、血液等体液污染玻

片等相关情况。

以上分析是数字组织病理现存的比较重要的特性,在实验设计中基于这些特性对后续

的图像预处理、算法框架的搭建以及结论分析都有非常重要的意义。

2.2卷积神经网络

随着计算力的不断提高,卷积神经网络在人工智能分析领域的地位在不断提高,凭借 着硬件设备的计算力提升,深度学习在图像处理中的应用结果相比于传统的机器学习算法 实现了超越。近些年来,卷积神经网络不断在各行各业深入发展,在医学图像领域,特别 是在全景数字组织病理图像领域更是带来巨大的变革。目前有众多医学图像的处理分析采 用了卷积神经网络,在未来,在医学领域中采用卷积神经网络进行数据处理与分析仍有很 广阔的发展空间,是非常重要且有意义的方向之一。

2.2.1卷积神经网络结构

卷积神经网络,即以卷积作为核心的前馈神经网络模型。

图2.2 Le-Net5网络模型框架图[42]

对输入的数据,卷积网络通过前面一系列的卷积,完成输入数据的处理后再经过一系 列的卷积层、池化层、激活层,还有全连接层或全卷积等操作最终便可以得到网络的输出 结果,根据这个卷积网络的输出结果计算与真实值的差异,根据相反梯度求导,将这个“差 异”进行回传,修正各个层的参数,在修正完参数之后,又重新进行前馈计算,最终使得 卷积网络的输出值与期待值之间的的差距达到最小值[37]。

2.2.2卷积层

卷积层属于线性计算层,使用一系列卷积核与多通道输入数据进行卷积运算。卷积运 算是指卷积核以滑动窗口的形式在输入数据的各个位置上做小范围加权和的过程。以病理 图像识别为例,卷积核可理解为是在输入图像上不断滑动并且此时对于这个滑动窗口范围
内的值与相对应的输入图像对应的像素值相乘后求和得到相应的输出图像像素值。卷积操 作属于分析数学中的一种运算操作,其对输入数据做运算时所有用到的函数称为卷积核。

通过卷积操作完成图像的特征提取。如图2.4分别代表输入图像和卷积核,输入图像为4 乘4尺寸共计16个像素,其数字代表像素点的灰度值;卷积核为2乘2尺寸共计4个共享

的值,其数值代表卷积核的参数。图2.5代表第一次卷积运算[38]。

图2.5卷积操作与输出结果举例

2.2.3池化层

2.2.2的卷积操作初步获得了图像的特征。由于实际图像并非4乘4的尺寸特别是病理 图像比这远大得多,若直接使用卷积提取的特征进行学习将产生巨大计算量,不仅耗时浪 费计算资源也容易造成过拟合不利于算法模型的构建学习。

输入图像

图2.5最大池化操作流程

输入图像

图2.7平均池化操作流程

解决参数量过大的问题,需要优化图像特征的个数或者降低特征的尺寸维度。一般来 说,图像具有空间相关性,即图像中的某一个像素点有很大的概率与其周围像素点相似或 相近的,将位置相邻的像素点合并即可实现提取图像特征的个数减少、图像特征的维度降 低。因此“池化”便是将空间上相邻像素点进行聚合处理。池化操作降低了特征的维度, 有利于提高计算效率和优化网络性能。池化的窗口大小可以根据需要选择2X2、3X3、7 X7等,并且宽和高并不需要一致。

目前应用较多效果较好的池化方式有平均值池化(过程如图2.6所示)和最大值池化 (过程如图2.7所示)。池化运算相当于某个固定尺寸的池化窗口在图像特征上不断进行移 动,过程中对窗口内的特征数值取平均或者最大值,窗口的移动距离可为池化窗口本身尺 寸也可另行设置。如果将池化窗口大小设置为2乘2,特征数量就减少为原来的1/ 4,如 果采用3X3大小的池化窗口,特征数量就减少为原来的1/9。

2.2.4激活层

卷积神经网络作为数学模型,在一定程度上是建模出一个数学函数;为增强其非线性, 可以采用非线性的函数对数据进行非线性操作,这个非线性函数即为激活函数。激活函数 对上一层输入的信息进行计算激活运算,即上述提到的非线性操作后,再传输到下一层神 经网络中,以增强网络模型的分线性计算能力。

正是通过激活函数使得网络模型加入了非线性因素,增强了线性模型的非线性表达水 平并不断传递到后面的神经网络运算中,从而实现神经网络可以更好解决如语音、图像识 别等非线的问题。深度学习算法中常用的激活函数有sigmoid> tanh> relu等[39],它们的 特性对比和一些细节设置如表2.1所示。

激活函数 公式 输岀范围 优点 缺点
1)神经元输岀非0均值,不
sigmoid [04] 可直接用在输岀层 易于模型训练;2)容易饱和,
造成后向传播时“梯度消失”;
神经元输岀为0均值, 1)容易饱和,造成后向传播
tanh y = ex -e~x /ex + e~x [-u] 易于模型训练 时"梯度消失” ;2)计算复
relu y = max(0, x) [o卄) 1)神经元兴奋域宽,激 活具有稀疏性;R梯度 不容易饱和;3)计算和 求导速度快 容易出现参数为负、梯度为零

的情况而导致神经元“坏死”,

无法再激活

表2.1常见的激活函数

2.2.5损失函数

损失函数(loss function)用于衡量所构建的数学模型的输出预测值f(x)与真实值T之 间的差异程度,是一个用于衡量模型预测结果好坏的函数。损失函数可以用一个值域为非 负的实值函数Loss(T, f(x))来表示,一般来说损失函数的值与网络鲁棒性成反相关。从神经 网络的优化上的角度分析,主要应用于学习模型的参数更新使得这个损失函数的值尽量可 能的小[40] o

下面将介绍一些常见的损失函数:

  • log对数损失函数(逻辑回归): 其标准表达式为:

L(Y,P(Y\X)) = -lo^P(Y\X)

  • 推导:以假设样本分布是服从伯努利分布(0・1分布)为基础,计算满足该分 布的似然函数,再将其取对数并求极值。从这种思想的角度考虑损失函数,可 得到操作后的函数即为log损失函数。通过取对数的方法给后续计算极大似然 估计带来了便利。
  • 平方损失函数(最小二乘法):

最小二乘法的基本思想是:拟合的最优直线能够使各个点到的直线距离和最 小,即平方和最小的原则。

  • 指数损失函数:

指数损失函数(exponentJoss)的标准形式如下:

£妙 f3)) = exp[-i//(x)]

  • 除了以上这几种损失函数,常用的还有:0"损失函数,绝对值损失函数。

其中,0・1损失函数是指,当预测函数的值和目标值不相等取1否则取0;

0-1损失函数数学表达如下

绝对值损失函数

UY,f(X)) = \Y-f(X)\

2.3分割卷积网络

在CVPR-2015上Long等人[41]提出了一种非常典型的分割代表网络——端到端的全 连接语义分割网络。一般输入到卷积神经网络的数据在经过若干的卷积层、池化层、激活 层处理之后,会再通过1・3层全连接层,将前序网络产生的特征转化成为一个固定维度的 特征向量,最终得到一个值如概率。

与一般卷积网络不同,区别如图2.8所示,全连接卷积网络,对图像的每个像素都进

行处理并计算出相应位置的概率,实现像素级分类。这可解决语义级别的图像分割。

全卷积网络可以接受任意尺寸的图像输入,保留输入图像的空间信息的条件下通过反 卷积层对最后一个卷积层特征进行上采样的操作,恢复输入图像尺寸的同时完成对每个像 素的概率值预测,流程如图2.9所示。

全卷积网络(FCN)是可以实现与图像级分类完全不同的像素级分类的卷积神经网络, 能够从提取的高维度特征中对每个像素所属的类别进行计算。
图2.9全卷积网络结构图[41]

全卷积网络采用多个上采样来替代传统卷积神经网络中的全连接层。如图2.8所示, 图像的尺寸经过多次卷积与池化操作后会不断变小,分辨率越来越低。这一问题的解决得益 于全卷积网络使用的上采样方法,使得低分辨率的粗略图像恢复到原图分辨率。例如,图 像的分辨率在经过5次卷积和池化操作后会缩小32倍,那么在最后一层的图像的输出时进 行一次32倍的上采样便可得到和原图一样的分辨率。

通过32倍的上采样恢复了原图的分辨率但结果并不够精确如许多细节无法恢复。于是 在后续研究中,Jonathan将第3、4层也分别进行8倍和16倍的上采样反卷积操作后得到 的结果相比于最后一层直接上采样的结果更精细。图2.10是这个卷积和反卷积上采样的过 程:

FCN-32s FCN-16s FCN-8s Ground truth
图2.11分别是是32倍、16倍和8倍上采样操作的分割示意图,明显看出其结果越来 越清晰、精确:

 

图2.11不同位置卷积层反卷积操作的结果对比图[41]

全卷积网络有以下优点:1)接受任意尺寸大小的输入图像;2)减少全连接层,计算 效率提高等。

同时存在明显缺点:1)网络预测结果不够精细,忽略了图像对图像中细节信息。2) 忽略像素的空间信息;在对各个像素进行分类时并未充分考虑像素与像素之间的关系。3) 对于真实标签的要求较高;像素级别的标签比图像级别的标签难获得很多。

在病理图像的实际应用中,病理图像在分割的应用意义与电子计算机断层扫描图像或 核磁共振图像的分割意义不同,后者在实际应用中需要比较精确的区域轮廓以便对于后续 诊疗包括放疗治疗的靶区定位。然而,在病理图像的分割应用中,由于病理图像尺寸和涵 盖的信息量巨大,且其中也不乏无用信息以及干扰的信息,因此在实际应用中更加偏向于 寻找出病理图像的感兴趣的粗略区域,以便于后续对这块区域可以更好的进行分析。另外 一方面,组织和细胞的重叠等实际问题的存在,不仅使得获得真实轮廓标签变得异常困难, 并且需要专业且经验丰富的医生花费大量的时间和精力进行标签的制作;同时也使得算法 学习的过程中分割出非常精确的区域比较困难,难以得到目标的结果。

因此,病理图像在实际的感兴趣区域分割中,重点在于比较粗略得分割出感兴趣的区 域以便在后续的分类工作中更好得进行。因此,病理图像的感兴趣区域检测这一问题,可 以从粗分割或者是局部区域检测的角度去解决;在处理病理图像感兴趣区域标签获得的问 题上,也应该尽量减少图像标签的获取难度,理论上图像级的类别标签是更快速且容易获 得,这也有利于算法可以快速进行实验和验证。

2.4分类卷积网络

在分类网络的介绍中,最早出现的分类卷积神经网络是于1994年诞生的Le-Net5[42],

具有较强的代表性。它存在着以下特性:

每一个卷积层都由3个部分组成,分别是:卷积操作、池化操作和非线性激活函数。

这一结构对后续的卷积神经网络发展带来了很大的影响,是许多卷积神经网络的基础结构。 网络处理数据的过程主要如下:先使用卷积操作提取图像特征,而后采用平均池化操作进 行特征降维以减少计算量,再通过双曲正切的非线性激活函数以提升模型的非线性,分类 任务通过多层感知机作为分类器来完成。最后,为提高计算效率、减少计算复杂度,以及 节约计算机的资源消耗,在每一层之间采用的是稀疏连接。

图2.12手写字Mnist数据集示例[42]

LeNet-5的具体网络结构共有7层,下面进行具体分析。以宽和高均为32的输入图像 为例。这比Mnist数据集(如图2.12所示)中最大的字母大。

如图2.13所示,C0NV1层是卷积层,该层的结构设置为:卷积核的大小为5X5,步 长为1,输出通道为6。在这一层卷积核对1个通道原始输入图像进行卷积操作,提取出的 图像特征尺寸为28X28X6 (表示方法为:宽X高X通道数,下同)。其中,C0NV1的参 数共有156个。C0NV2类似分析。P00L1层是用于降低维度的池化层,根据图像局部相 关性对图像进行局部抽样,在减少数据量的同时保留下来有用的信息,是一个降采样的过 程。这一层的池化层的尺寸为2X2的大小,步长为2,将CONV 1提取有28X28X6降低 为14X14X6的特征。池化操作不涉及参数的保存和学习。P00L2的分析类似。

F3层位全连接层,对上一层也就是P00L2层的输出连接处理,P00L2层的输出维度 为5X5X16,因此这里全连接层为400X120,此处的参数120可以自定,和下一层设置的 参数相关。全连接层的处理过程是计算输入的特征向量和权重向量之间的点积,再增加一 项偏置传递给激活函数处理。本层的输出有激活函数,激活函数为双曲正切函数:

f(a)  .4 tanh(Sa)

在经过了最后一个全连接函数之后会经过一个sigmoid函数,可以将上一层得到的概 率值限制在0到1的范围内,有利于后续的网络计算和更新。

Layer Input Stzekernei Stride Output terr Memory
CONV1 1@32

X32

5x5 1 6@28

X28

6 X (5 X 5 + 1) 6X (28

X罚

POOL1 6@20

X28

2x2 2 6@14

X 14

0 6X (14

冥14)

CONV2 6@14

X14

5x5 1 16@10

X10

16 X (5 X 5 X 6

+ 1]

16 X (10

X10)

POOL2 16@10

X10

2x2 2 16@5

X5

0 16x(5

X 5)

FC3 400@1

X 1

1X1 1 120@1

X 1

120 x (400 + 1) 120 X (1

X 1)

FC4 120@1

XI

1X1 1 84@1

XI

84 X (120 + 1) 84x(1

X 1)

FC5 84@1

X 1

1X1 1 10@1

X 1

10 X (84 + 1) 10 X (1

X 1)

total 61706 8094

图2.13网络的构建参数

欧式径向基函数单元组成最后的输出层。该层有十个输出神经元也即10个类别,该实 验中100个类别为手写体的10个数。对于输出而言,输出数字较大的那一个神经元具有较 高的概率值,其代表的数字就是输出的预测类别。

随着分类算法的发展,病理图像的智能诊断也将会成为卷积神经网络非常重要的一个 研究方向。病理诊断是临床癌症诊断的金标准。病理诊断的重要性己经不言而喻。而临床 的病理诊断主要是病理医生进行人工诊断,目前在我国病理医生还比较缺乏的前提下,仍 然存在着两大方面问题。其中一方面是,病理的诊断需要非常丰富的经验知识和理论储备 才可以正确诊断,意味着大量诊断过程中,错诊、误诊将会不可避免,同时在于医疗资源 比较落后的地方而言,这一概率将更高。另一方面,病理医生不像机器电脑可以24小时连 续不间断工作,这疲劳因素等将一定程度上影响着病理诊断的效率[48]o

而卷积神经网络这一不需人工干预、可以自动提取特征的算法的优势日益凸显,在医 学图像领域特备是病理图像领域将可以带来极大的帮助。计算机辅助诊断的介入可以很好 的辅助临床病理医生解决这一问题。

2.5注意力机制

人类在接受大量信息的同时使用注意力资源从中快速筛选出较有意义的信息,即为人 类的注意力机制。在深度学习的注意力机制应用中结合了人类的注意力手段这一方式在语 音识别、自然语言处理以及图像处理等各种不同场景的深度学习模型中进行应用并取得了 不错的成果。因此,采用权值分配更合理的注意力机制将是今后深度学习发展的方向之一。

Ghahramani等人[43]是最早提出了基于注意力机制的深度学习模型并且在图像分类问 题上得到了成功的验证,而后大量学者通过框架设计和计算优化不断改进,近年来该技术 得到快速发展。其主要研究包括图像分类、自然语言处理等方面。在图像分类方法上, Ghahramani等人所在的Google Mind团队在循环卷积网络模型中融入了注意力机制思想, 并在MNIST图像分类上进行实验验证,分类错误率降低了 5%〜8%。这一研究加速了注意 力机制的发展。在机器翻译方法上,Bahdanau等人[44]于2015年在编码器中寻找输入与输 出目标关系的部分引入了注意力机制,翻译结果尤其在长句中更加通顺、易理解。Xu等人 [45]在长短期记忆网络模型中引入了注意力机制以实现在不同的时间点关注不同的图像区 域,在图像说明上的布勒(BLEU指标,机器翻译评价)评价提高了 1 %〜6%。

深度学习与注意力机制的融合在未来有很大的发展空间,并将诞生更多的应用。首先 简要分析下人的注意力机制的原理:人的大脑对于视觉上接受的信号进行处理的一种机制。 如图 2.14 (来源于 http://usableworld.com.au/2009/03/16/you-look-where-they-look)所示,人 通过视觉感受快速扫描全局的图像并从中发现需要特别关注的区域或范围后对这一范围释 放更多的注意力去得到更多计划需要关注的这些目标的各种细节信息,同时在这个过程也 会减少其它相对无意义的信息的视觉感受。注意力机制的存在是识别选择有意义信息或者 是目标信息的非常有意义的机制,并且在处理信息的过程中大大提高了效率和效果。

图2.14视觉注意力机制示例

在自然语言处理中,基于注意力机制的神经网络得到了广泛使用,并且相比之前的研 究均取得了更好的结果。在后续的介绍中会结合深度学习的特点与注意力机制的结合之处 进一步分析,并且重点介绍在图像领域中的应用中使用注意力机制思想的方法。

Ghahramani等人[43]的研究成果,是在图像处理中应用注意力机制的代表性文章之一。 在论文中,作者提出人类在观看东西时会根据自身实际需求将注意力集中到图像的特定部 分。基于这种注意力机制,作者提出了在传统的循环神经网络中加入与人类行为类似的注

意力机制,通过注意力机制来学习图像要处理的目标部分。该注意力网络模型能够顺序处 理图像输入,并在某一时刻根据一张图片内部的不同位置记录下这些定位,根据这些信息去生成另外一种表达。在当前步骤时,模型会结合过去的信息和任务的要求来决定下一个 位置。并且在此注意力网络模型中,需要处理的像素大幅减少,降低了任务的复杂度。
图 2.15 Recurrent Models of Visual Attention 网络模型结构图[43]

下面针对图2.15对网络的各个模块进行介绍:

图A:感应器,对给定的图像与相应的中心坐标,从图像截取这个坐标为中心的若干 不同尺度的图像。p(xt,lt-l)作为某一快选取图像的表达,其中d为图像的坐标中心。

图B:给定图像的坐标中心Li和输入图像将传感器(即图A)提取的图像块p(xt, lt-i)送入到2个独立的线性层进行空间映射并组合,获得以p(x“ lt-i)为表达的图像特征。

图C:循环卷积网络模型的整体结构,图A和图B为其中的一部分。循环卷积网络对 含不同区域注意力机制的特征通过循环卷积网进行学习,且在计算时保持一个时间间隔T 的状态,结合当下时间T的信息以及上一个时间T・1的信息,不断循环学习。

病理图像的实际诊断中,病理医生并非是针对单一图像或者是单一尺度的图像的进行 分析而是通过在电镜或在终端屏幕下不断移动或放大或缩小等一系列操作进行综合分析以 诊断。日益累计的诊断经验,使得医生己经学会从不同图像或不同尺度的图像中去聚焦寻 找医生诊断所需的重点信息。针对这一临床实际步骤,与上述的注意力机制的原理十分相 似,对图像的不同区域或不同特点分别给予不同的权值。

因此,在病理图像的实际分类应用中,结合临床步骤采用注意力机制的算法将会更加 符合临床的实际应用且更具有解释性,在针对现有的数据,通过分析不同尺度的图像特征, 结合注意力机制,让算法学习如何去“聚焦”关键的信息,对后续诊断分类的结果也有较 大益处,也更加符合神经网络的发展。

2.6深度学习框架

  • TensorFlow:

TensorFlow是由谷歌人工智能团队的谷歌大脑进行研发的基于Python语言的第二代机 器学习学习系统,并于2015年11月9日在Apache 2.0开源许可证下发布。TensorFlow是 一个采用数据流图用于数值计算的开源软件库,并于2017年12月份预发布了动态图机制 Eager Execution o

  • Keras:

Keras由谷歌的工程师基于Python语言编写的一个开源人工神经网络库。它能够作为 一个高阶程序接口在TensorFlow上运行使得开发者可以快速进行深度神经网络的实验和 学习训练。在2017年后,逐渐整合到TensorFlow内部作为应用程序接口调用。

  • PyTorch:

PyTorch是于2017年1月由Facebook的人工智能研究院(FAIR)发布的基于Python 的一款开源深度学习库。强大的图像处理器加速张量计算和自动求导的功能使得计算速度 也更快迅速,且其基于张量(Torch)计算、动态计算图等优点,使用PyTorch这一深度学 习框架的开发者日益增加。

主流框架均是基于计算图,静态计算图和动态计算图是计算图的两大类别:静态计算 图的特点是先进行定义后进行运行或者一次定义后多次运行;而动态计算图的特点是可以 在运行的过程中被定义的也可在在运行的时候构建或可以多次构建多次运行。PyTorch和 TensorFlow都是基于图的框架,PyTorch是基于动态图,而TensorFlow是基于静态图。所 谓动态图即在PyTorch中每一次前向传播计均会创建一幅新图,如图2.16所示(来源于 https://pytorch.org/):

PyTorch是目前比较简洁易用高效的深度学习框架之一,其简洁的使用,流畅的速度、 学习容易以及丰富的社区等原因,让本文研究选择了 PyTorch作为深度学习的框架模型:

简洁易用:PyTorch封装较少、接口分类清晰,且自定义了部分求导更新的函数算法 使得开发者可直接调用并支持在过程中不断修改。PyTorch高度集成、基于Torch的计算方 式、构建网络思维与人自身思考的惯性相符,研究人员可专注于创新和实践。

速度:主要由底层算法编辑决定,相同的算法结构在采用其他的深度学习框架速度相 对于PyTorch较慢,PyTorch对图形处理器的大力支持使得存 在大量数据进行计算的深度 学习更有效率。

图2.16 PyTorch计算更新图

活跃的社区:PyTorch在发布之初配备了丰富的文档和示例说明,使得开发者可快速 熟悉与使用,也使PyTorch社区不断庞大。PyTorch在脸书的支持下,社区相关代码和原理 技巧介绍也在不断丰富,日渐增加的内容使得更多后来者能够更方便进行学习和内容交流。

2.7小结

本章主要对本文所涉及到的相关理论进行的较为全面的介绍和分析。首先是本文的分 析对象,即数字组织病理图像,对其特性进行了详细介绍,并总结了目前数字组织病理图 像在深度学习卷积神经网络中应用的时候所存在的问题,这有利于算法更具针对性得进行 构建。其次,重点介绍了本文要采用的基础技术方法,即卷积神经网络。先对卷积神经网 络的整体框架和结构进行了阐述,而后分别从卷积层、池化层、激活层等重点结构层进行 了进一步的分析。在这个卷积网络的基础之上,进而介绍了最早提出的全卷积分割网络模 型,以及最早的卷积分类网络模型,为本文后续的模型介绍奠定基础。随后介绍了本文采 用的重要提升方法一一注意力机制,叙述了该机制的原理和理论发展,及其对于卷积网络 的影响与相关应用。最后简略分析了卷积神经网络的代码实践工具,即主要的深度学习的 模型框架,并着重介绍了本文所采用的深度学习框架一一PyTorch的相关优势。

3章 基于卷积神经网络的快速癌症区域检测

医学图像在临床实际诊疗中,医学图像分割检测的准确性是可靠性程度的关键依据。

特别是作为临床诊断金标准的病理图像,其区域检测的准确性更加关键。目前,医学图像 分割技术是生物医学图像的图像分析中举足轻重的部分。近年来,在基于卷积神经网络为 代表的深度学习的医学图像处理中,医学图像分割技术要求也在不断提高,准确寻找出图 像中的感兴趣区域对于临床的下一步诊断及治疗至关重要。然而,在病理图像上的分割与 在核磁共振图像、x射线成像上的分割不同:一方面,病理图像色彩和信息量更加丰富, 且病理图像存在的大量噪声图像;因此,直接分割出病理图像的感兴趣区域困难较大;另 一方面,从卷积神经网络的实际建模学习中分析可知,分割模型的训练需要较高质量、较 准确的轮廓标签;根据第二章第一节的病理图像特性所述:病理图像尺寸巨大,细胞与组 织边界轮廓不清晰;这意味着获取病理图像的轮廓标签难度较大。

因此,本章从目前病理图像感兴趣区域分割算法所存在的问题出发,采用公开肝癌的 数据作为实验数据集,把像素级分割问题转变为图像级分类问题以实现组织病理图像的感 兴趣区域的快速检测。与直接分割所需的精细轮廓标签不同,本章所提方法只需图像的类 别标签即可完成模型训练。实验的结果统计和数据分析表明,这一方法取得了良好的实验 效果。此外,本章也进行了不同倍率下病理图像的实验,更完整得验证了算法的性能。

3.1实验数据集及预处理

癌症基因组图谱(TCGA)是由美国发起的目前全球最大的癌症信息数据库。本文从 TCGA数据库中收集了总共100例最大放大倍数为40倍的肝细胞癌(Hepatocellular carcinoma ,简称HCC)患者的病理全切片图像 (Whole slide image,简称WSI)。在实 验中,这些图像被重新缩放为20倍和15倍,并选择70例作为训练数据,其余30例

数据集 病例数 切片数
训练数据集 70 59*24
验证数据集 20 25*24
测试数据集 10

表3.1快速癌症区域分割实验数据集设置

用作验证和测试数据,具体数据集划分细节如表3.1所示。在进行实验之前,本文对数据 进行了适当的预处理。

训练数据集的标签由具有丰富经验的病理学家进行制作,划定全部数字病理切片中的 肿瘤区域。这些标签也是对实验结果进行最终评估的依据。

对图像进行的预处理如图3.1所示。基于之前的研究经验,本文将收集的WSI重新缩 放为适当的放大倍率,并将其切成小块(Tile)。这些小块再由病理医生做出图像级的类别 标签。将标记好的小块再次切割成多张更小的图像(Patch),其标签与之前小块的标记相 同。由于WSI中包含多种人体组织,存在部分由于切片制作过程操作不当造成的图像,例 如血管、污渍、染色不均等,实验通过在训练数据集中添加了一些噪声图像来缓解此问题。

图3.1数据处理示意图。

3.2快速癌症区域检测网络构建

快速检测网络在搭建之前,本节先对本章涉及的技术路线进行总结:

正是由于临床诊断实际的需要,病理图像的诊断需要寻找图像的感兴趣区域进行分析, 基于病理图像的尺寸较大,轮廓和边界并不清晰的特性,故直接采用分割卷积神经网络的 做法,需要对每一个像素进行计算和分类,计算量会巨大,同时网络模型学习效果易与期 待结果不相符。另一方面,采用直接分割的卷积网络,需要大量感兴趣区域精细轮廓标记 的病理图像标签(像素级标签),这在数据集的准备中是非常耗时的,并且获得的难度较大, 对研究的顺利开展带来较大阻碍。同时,由于肝癌无特异性症状,患者在确诊时多为中晚 期,致使患者的病理图像中大部分区域均为肿瘤区域,造成了数据分布的极度不平衡。采 用传统的卷积神经网络分割方法,对于良性区域特征将无法得到充分学习。基于以上的情 况,本文将目标区域的分割问题转为图像分类问题,通过对病理图像的每一块区域均匀得
进行检测,最终完成对感兴趣区域的检测。通过这种方法的转化,一方面,简化了标注标 签的获取,使得研究可以顺利开展;另一方面,此方法可更方便、快速检测出感兴趣区域, 以便于后续分析。

如图3.2所示,实验过程可以分为两部分:训练过程和测试过程。下面对训练过程和 测试过程分别进行叙述:

在训练过程中,在进行上文提到的预处理操作后:从WSI中切割出小块(Tile),并由 病理学家以0或1进行标注。而后将带标签的小块切成多张更小的补丁块(Patch),每个 补丁都具有与小块相同图像类别的标签。本实验采用的卷积神经网络用于提取有图像级别 标签的补丁的特征,并完成补丁的分类。通过多次训练对分类器进行微调并提高其性能。

在测试过程中,将测试WSI的小块切成与训练过程中大小相同的补丁,然后由训练好 的分类器对补丁进行分类。最后,完成检测后的小块进行后处理操作,以拼接成完整的病

其中,兀为卷积神经网络的输出概率值,class为分类的类别。

3.3实验相关设置

首先,本章节对于实验环境进行了相关配置,如下表3.2:

实验环境参数

中央处理器 32 核 Intel (R) Xeon (R) CPU

E5-2620@2.10GHz

内存 Supermicro SYS-7048GR-TR 512.0G
硬盘 HGST HUS726040ALE610 (APGNTD05 )4.0T
系统 Ubuntu 16.04
图形处理器 NVIDIA Tesla VI00
内存 64G
深度学习框架 Pytorch 1.0

表3.2实验环境参数

其次,对于本章搭建的神经网络,也进行了相关的网络初始化的参数的设置,这些初

始化参数对于网络模型的训练和设计有一定的影响,如表3.3设置:

模型初始化参数设置

随机种子 1314
批处理大小 64
进程数 4
类别权重 [1.16, 1.0]
学习率 0.01
学习率衰减 20次迭代衰减0.8

表3.3模型初始化参数设置

3.4结果分析

DeepLab-v3是常见的分割网络模型。为了证明所提出的基于图像级别标签的方法优于 传统直接分割的方法,本章在数据集中训练了 DeepLab-v3并进行了对比测试,结果如图 3.3所示。DeepLab-v3的Dice指数为0.754,低于本文所提出的方法——值为0.767。如 上文所述,过小的补丁和使用像素级标签将不可避免地遇到数据不平衡的情况,从而导致 卷积网络模型对良性区域和恶性区域的学习程度不平衡。因此,如果使用DeepLab-v3进行 感兴趣区域的检测,会存在评估结果好,实际分割结果差的情况。本问方法利用图像级标 签避免了此问题,获得了具有实际意义的分割结果,并提高了网络模型性能。

Ours

5 6 7 8 9 10

Patient Number

图3.3与传统的直接分割性能对比

根据图3.4a和3.4b所示,本文提出的方法在准确性,灵敏度和受试者工作特征曲线 (Receiver Operating Characteristic,简称 ROC)下的面积(Area under the curve,简称 AUC) 方面,两种倍率下的图像实验都取了较好的实验结果,且15倍图像比20倍图像效果稍好。 尽管15倍和20倍图像之间的放大率差异很小,但是图像包含的组织结构和细节等信息仍 然存在一些差异。相比之下,对于本文提出的分割方法,15x图像是更好的选择。

图3.4模型性能结果(左a右b)

如图3.5所示,是否将重叠应用于获取补丁的图像预处理中将对实验结果产生相当大 的影响,显然(e)列使用重叠的结果明显优于(d)列而没有重叠准确性的结果和细节。通 过重叠,图像可以在后处理中获得更精细的分割结果。

3.5小结

本文提出了一种用于癌症区域检测和HCC病理图像分割的全自动方法。该方法的创 新之处在于使用图像级标签代替像素级标签对补丁进行分类,并采用适当的后处理策略对 分类后的补丁进行聚合,以快速高效地获得癌症区域。因该方法只需要图像级标签,从而 大大减轻了病理学家标注尺寸巨大的WSI的工作量。同时,该方法还与病理学家在临床中 分析病理图像的真实过程相吻合,有助于快速发现恶性区域,减少诊断时间,因此具有一 定的临床价值。

图3.5算法在病理图像快速检测的结果展示

本文使用准确性,敏感度,特异性等指标对所提出的方法进行综合评估。结果表明本 文的方法表现良好。本章还与其他常用的需要像素级标签进行训练的分割方法 (Deeplab-v3)进行了比较。对比测试的结果证明,该方法具有比经典方法更好的性能。 更重要的是,通过可视化图像证明了本文的分割结果具有更实际的意义。尽管本文所提方 法与经典方法之间的评估指标值相近,但可视化结果表明,由于肝癌病理图像的良性区域 与恶性区域的极度失衡,传统方法通常无法进行有意义的分割。除此之外,本章还研究了 放大倍率选择和聚合拼接策略对算法性能的影响。

根据以上总结,本文方法有以下改进之处:(1)需与更多的分割以及目标区域检测方 法进行比较,以更加有力地证明本方法的优势和可行性,并通过比较和分析找到算法的优 化方法;(2)计算本文提出的方法与其他各种方法的具体操作时间,优化计算速度;(3) 参考病理学家的临床诊断过程,增加多尺度的图像信息。继续探索补丁裁剪,放大倍数选 择,聚合策略和耗时对结果优化的影响。

4章基于注意力机制的卷积网络的组织病理图像分类

所谓病理图像分类,指的是针对目标的病理图像,在某一病理图像空间分布中寻找与 之相似或相近分布的病理图像,根据相似或相近的病理图像类别进而确定目标图像的类别。 现有的病理图像分类方法,使用单一尺度病理图像进行分类为主,易导致低倍率下的病理 组织重视度或高倍率下的细胞重视度不足的情况。本章通过在病理图像分类上应用第二章 所提及的注意力机制,聚焦病理图像中的重点区域或信息,对重要性较大的赋予较大的权 值,重要性低的相反。结合这一逻辑,本章提出一个基于注意力机制的深度多尺度特征的 卷积神经网络模型以实现病理图像的分类。网络模型通过自动提取多个尺度的特征并相应 得学习其权重比例后,融合不同尺度的特征完成病理图像的分类。实验结果表明,这一方 法在数字组织病理分类任务中能够取得不错的效果。

4.1实验数据集

本章节所用的实验数据集与第5章节使用的实验数据集为同一套数据集,主要的数据 介绍详见5.1,此节不再赘述。

4.2基于注意力机制的数字组织病理图像分类网络构建

4.2.1本算法着重解决的问题

通过对单一尺度倍率的病理图像进行分析,存在着一定的问题。

首先,对单一倍率的图像处理与临床实际诊断的过程有一定差异,临床病理医生在诊 断过程中,是在显微目镜或者终端屏幕上不断移动评阅,并在不同倍率下进行分析,如低 倍率和高倍率,不同倍率下可观察到的图像既有特征是不同的。例如,在低倍率下,更多 是看到组织形态的特征、分布等,而在高倍率下,更多看是看到细胞级别的形态、特征, 不同级别的特征对于实际诊断也是相关重要的。

因此,本章节提供了一种基于注意力机制的深度多尺度特征卷积网络的病理图像分析 方法。首先对公开病理图像数据集进行训练,设计的训练网络是基于注意力机制的深度多 尺度特征卷积网络,通过提取不同尺度的特征,再结合注意力机制,通过网络框架学习相 应尺度对应的权值,并将不同尺度的特征进行融合以获取病理图像更丰富的特征表达,从而实现病理图像的精准分类。最后根据所得训练模型实现对临床病理图像样本的分析。

4.2.2算法总体逻辑架构

基于临床病理科医生的实际诊断步骤,本章将注意力机制与卷积神经网络相结合以实 现对图像及特征的更加合理的分析。在原有的经典卷积神经网络的基础上,针对单一尺度 的分类的问题,进行了本章算法的逻辑设计,具体架构与算法的设计分析如图4.1所示。

首先是数据集的收集,数据集的说明在4.1己阐述。根据算法流程,算法需要收集公 开的和临床的癌症数据集以丰富数据集的组成。在收集整理完数据之后,对数据进行随机 划分,进入到病理图像预处理这一流程。病理图像的预处理是比较重要的一个环节,对后 续的实验影响效果。在这里,本章采用的数据图像预处理主要是两方面。一方面,是将全 景数字病理图像切割成固定尺寸、固定倍率的图像块补丁。另一方面,是计算图像块补丁 的各个颜色通道的像素值的均值和方差,通过后期处理将这个图像块补丁的分布转化为符 合高斯分布的数据分布。至此,数据准备基本完毕。

图4.1算法总体的逻辑架构设计

其次,是构建一个基于注意力机制的深度多尺度特征的病理图像分类卷积网络。在构 建此网络模型时,针对网络提取的多个尺度特征,融合了基于注意力机制的算法模型。算 法模型的具体搭建在423将会具体描述。在搭建完相应的网络模型后,将经过预处理的数 据送入卷积神经网络中进行学习,最终完成一个基准级别的病理图像分类器的学习。至此, 分类网络训练完成。

在解决实际的临床应用问题时,网络需对获取的临床病理图像进行预处理,步骤与训 练数据集的处理步骤相同,并且使用相同的参数,以确保算法的稳定性和非随机性。而后 经过前叙通过训练数据集学习的卷积神经网络分类模型,网络模型自动提取图像的多尺度 特征,再结合注意力机制算法等网络操作以得到综合考虑了局部特征与全局特征的联合图 像特征,将得到的联合图像特征使用训练好的分类器进行类别判定,以此获得目标病理图 像的诊断结果供后续分析。

4.2.3算法模型搭建

在算法模型的搭建中。网络需要先设计好病理图像的输入尺寸即图像分辨率,根据经 验值本章设置成224X224的尺寸。这个尺寸的确定对于后续的算法模型的相应参数的设置 有较大关联。为结合临床的实际情况即可以综合不同尺度的病理图像特征,对经过一次卷 积后得到图像的高维表达的特征,本章根据这个高维度特征,搭建并设计后续的多个尺度 的特征提取的算法模型。

在经过上述的多尺度特征提取算法之后,网络获得了 4个不同尺度的特征。至此,网 络引入注意力机制算法。注意力机制算法的融合,使得不同尺度的特征转换为4个具有相 同的分辨率和通道的特征的同时,也分别学习了不同尺度的权重值(图4.2表示为CN)。 此处涉及的相应的特征计算模型如下:

Cin-\

Qut{Ni, Coutj) = bias(Coutj)+ 工 weight(Coutj, k) * input(Ni, k) (7)

k=0

此处“*”为二维卷积运算,N表示批处理的大小,C代表维度,k代表像素位置,k 的取值与图像的咼H和宽W有关。

获取含注意力机制权值的4个由不同尺度转换而来的具备相同分辨率和通道的特征 后,网络将以上特征融合成一个更具代表性的特征。最终,融合后的特征通过一层全连接 层与逻辑回归模型,得到图像的不同类别的概率分布。在经过反复的数据学习之后,卷积 网络在不断的数据更新和迭代,以达到近乎收敛。至此卷积网络模型搭建基本完成。

图4.2基于注意力机制的多尺度卷积网络模型
其中,在计算类别概率后,需要与目标输出值计算损失函数,结合了注意力机制的损 失函数模型如下:

3 Oin-l 3 Cln-1

loss(Ip^„ class^) = iveig,[classj • w( Cout, k ) * exp(^^ w( Cout, k ) * Ipk[j]))))

i=0 k=0 j i=0 k=0

其中,Ipk代表输入图像的像素值,weig[class]代表该类别指定权重,w (Cout, k)代 表在提取完特征之后计算得到的注意力机制权重值。

4.3实验相关设置

首先,本章节对于实验环境进行了相关配置,如下表4.1:

实验环境参数

中央处理器 32 核 Intel (R) Xeon (R) CPU

E5-2620@2.10GHz

内存 Supermicro SYS-7048GR-TR 512.0G
硬盘 HGST HUS726040ALE610 (APGNTD05 )4.0T
系统 Ubuntu 16.04
图形处理器 NVIDIA Tesla VI00
内存 64G
编程语言 Pytorch 1.0
深度学习框架 Supermicro SYS-7048GR-TR 512.0G

表4.1实验环境参数

其次,对于本章搭建的神经网络,也进行了相关的网络初始化的参数的设置,这些初

始化参数对于网络模型的训练和设计有一定的影响,如表4.2设置:

模型初始化参数设置

随机种子 1314
批处理大小 64
进程数 4
类别权重 [1.0, 1.0, 1.34]
学习率 0.01
学习率衰减 20次迭代衰减0.8

表4.2模型初始化参数设置

4.4结果分析

该方法在鼻咽癌癌变图像上进行验证,将20倍的鼻咽癌数字病理切片中采集到的病理

图像作为测试数据集。以“图像是否包含癌变区域”这一分类问题的受试者工作特征曲线(ROC曲线)作为评价指标,统计结果如图4.3所示。可以看出,在炎症、淋巴增生以及

鼻咽癌的分类上,融合了注意力机制的深度学习模型取得了良好的结果。

图4.3算法的ROC曲线评估

4.5小结

本章通过构建基于注意力机制的深度多尺度特征的病理图像分类卷积网络,并以鼻咽 癌作为实验数据,实现鼻咽癌的全自动诊断。该算法能有效节约人工对数据进行分析归类 的成本,避免了对医生技术水平的过度依赖,大量节省了医生的人力物力成本,实现鼻咽 癌的早起诊断使得更多鼻咽癌患者能够得到及时诊治。同时融入了注意力机制,使得可以 对重点区域或信息分配不同的权值,使得算法模型更具有解释性。

本算法的创新点及优势包括:

1、 在公开数据集上进行训练,临床数据进行调整进一步学习,并最终在临床数据进行 测试,解决了临床标注数据集有限的局限性。

2、 采用了基于注意力机制的多尺度特征卷积网络进行特征融合,获取更丰富的特征表 示,使得诊断效果更好。

3、 本模型将易误诊为鼻咽癌的淋巴单独作为一类进行分类学习,降低了将淋巴错分为 癌症的机率。

5章基于卷积神经网络的组织病理图像分类应用

随着科技和全景数字病理图像自动玻片扫描仪的发展,数字病理图像的应用在近几年 急剧增加,病理图像大数据时代己经到来。临床病理的准确诊断需要经验丰富的病理医生 完成,而我国目前体系培养成熟的病理医生的过程十分漫长,病理医生资源短缺且分布不 均。上述情况导致每位病理医生的工作内容增加,工作时间较长、工作量较大引起的错诊、 误诊等情况难以避免。不受主观经验以及疲劳程度影响的计算机辅助诊断系统能够克服人 工诊断的影响,且随着计算机技术的发展和计算速度不断地提高,计算机辅助诊断相比于 人工诊断工作效率更高,并在一定程度上提高了病理分析及诊断的精度。在图像分类上, 仅需少量人工辅助、可自动化提取图像特征且网络模型学习泛化能力强的卷积神经网络的 应用也在逐渐递增,对于病理图像的分析处理也是重要应用趋势。

在第3章节中,本文提出了快速获得病理图像感兴趣区域的算法,在获得感兴趣区域 后针对区域内的图像进行下一步的诊断工作,有利于效果提升。在本章节,研究对象为临 床鼻咽癌病理图像。临床上鼻咽癌的病理诊断并不高效,不同经验的病理学家之间的诊断 结果时有出入,因此本章提出将一种深度学习算法应用于鼻咽癌的病理诊断中,并将该模 型与不同技能水平的病理学家的诊断结果进行对比,以验证其临床价值。本章所进行的回 顾性研究实验结果表明,鼻咽癌所应用的算法模型,在准确性、特异性、敏感性、受试者 工作特征曲线下面积与一致性方面均优于初级和中级病理学家,略低于高级病理学家。本 章的深度学习模型不仅能有效诊断鼻咽癌,且比经验不足的病理学家提供更加准确的诊断 结果,证明在临床实践中深度学习模型可为病理医师提供辅助性的诊断意见。

5.1实验数据集

鼻咽癌具有地域性发病的特点,是常发病于东南亚国家的恶性肿瘤,同时也是我国两 广地区(广东,广西)发病率最高的耳鼻咽喉恶性肿瘤,其发病部位在鼻咽腔顶部和侧壁, 起病隐匿,早期特异性较低且无典型临床症状,易出现漏诊和误诊。患者以鼻塞、涕中带 血、听力下降为临床症状,恶性度较高,预后较差。

因此,进行鼻咽癌高发地区人群的筛查和早期诊断是鼻咽癌防治的关键。病理检查是 鼻咽癌确诊的金标准。病理医生的癌症诊断主要依赖于通过显微镜捕获的组织样本图像的 视觉检查。

病理医生的诊断方法需要结合自身长期积累的经验综合捕捉全局特征和局部细节来判 断病理切片中是否发生癌变,耗费大量时间且对医生的专业知识要求极高。近年来,随着 人工智能技术的快速发展,计算机辅助诊®f(Computer-Aided Diagnosis, CAD)在医学领域取 得了很大成功,相关研究层出不穷。CAD在病理图像的诊断主要包括传统的机器学习和深 度学习。传统的机器学习算法需要先手动提取图像特征,后通过分类器进行分类。

通过机器学习的方法实现诊断的效果主要依赖于前期手动提取特征的效果。与传统机 器学习算法相比,深度学习不需手动提取特征即可自动挖掘病理图像的深层特征,直接进 行端到端优化。CAD技术在病理图像领域己经取得了许多成功应用,然而在鼻炎癌诊断领 域上的应用研究非常稀少。

在2004年4月至2018年9月期间,我们从深圳市第三人民医院和高州人民医院病理 科对731例接受活检的1970例WSI进行了明确诊断。提供这些样本的患者年龄范围在18 至71岁之间,平均年龄为43岁。根据世界卫生组织的组织学分类,所有癌症样本均被分 类为非角化癌。收集的WSI包括三类:316例炎症,138例淋巴增生和277例鼻咽癌患者 (Nasopharyngeal carcinoma,简称NPC)。另,患者知情同意书已由机构研究伦理委员会 获得。

训练数据集和验证数据集分布说明
训练集数据 验证集数据
总数据 集 炎症 淋巴 鼻咽 癌 总数据 集 炎症 淋巴 鼻咽

例数 481 219 74 188 136 58 30 48
(100) (46) (15) (39) (100) (43) (22) (35)
图像数 1244 644 130 470 612 315 63 234
(100) (52) (10) (38) (100) (52) (10) (38)

表5.1训练和验证数据集说明

这些WSI是由福尔马林固定石蜡包埋(FFPE)染色组织后使用Motic VM1000扫描仪 (Motic,厦门,中国)获得,由2名高于15年临床经验的病理学家进行标记得生成,即病 理学家会阅读扫描一次而其之间没有达成共识或审查。此外,当炎症和淋巴样增生与鼻咽 癌难以区分时,进行IHC (PanCK, AE1/AE3, CD3, CD20)检测以最终确认。WSI通常以金 字塔结构存储,放大倍率从1倍到40倍不等。根据之前的研究经验,本章选择了放大倍数 为20倍的图像进行实验。本章将WSI分为三个数据集:一个训练集(来自481个病例的 1244个WSI), 一个验证集(来自136个病例的612个WSI)和一个测试集(来自114个 病例的114个WSI),表5・1和表5・2显示了数据集的详细信息和每个数据集的比例。

测试数据集分布说明
总数据 集 炎症 总数据集 炎症 淋巴 鼻咽 癌
例数(100) 219 114 39 34 41
(46) (100) (34) (30) (36)
图像数(WO) 644 114 39 34 41
(52) (100) (34) (30) (36)

表5.2测试数据集说明

5.2基于数字组织病理图像分类网络构建

在此网络搭建之前,本节先对本章涉及的技术路线进行总结:

人类患癌概率的增加,数字组织病理图像的快速发展,使得数字病理图像的计算机分 析成为迫切需求。临床病理医生的系统性培养需要大量的时间,目前的病理医生数量无法 满足实际需求,给病理医生带来了较大工作负担。且目前的病理诊断多基于形态学而缺乏 量化分析。在日益增长的数字病理诊断需要下,计算机辅助诊断将逐渐登上舞台。采用卷 积神经网络算法的智能诊断是重要的方向。本章通过搭建适用病理图像的卷积神经网络, 以进行病理的分类诊断,协助病理医生进行分析,提供辅助性诊断参考。卷积神经网络可 以自动化提取图像特征,能更加高效、便捷、准确得辅助临床进行诊断。随着其不断发展

并逐渐应用于临床,实现有效减轻医生负担并提高诊断的准确率的目标。

图5.1本研究用于诊断鼻咽癌的深度学习方法概述。

Inception-v3是最先进的分类深度学习模型之一,该模型可分解卷积并使用正则化以较 少的参数获得更好的结果。它的性能己通过ImageNet大规模视觉识别挑战赛(ILSVRC) 2012 (http://image-net.org/challenges/LSVRC/2012/index)进行了验证,该数据集是包含 1000 种日常物体的常用数据集,可以证明模型的视觉对象识别能力。因此,本章选择Inception-v3 网络进行病理图像的分类。

众所周知,深度学习的模型训练需要大量数据。与自然图像相比,医学图像数量较少, 本章在研究实验中使用了迁移学习,以期于病理图像获得有效训练的深度学习模型。该模 型在自然图像数据集上训练以获得初始参数,在保留初始参数基础上,使用病理图像数据 集进一步训练模型以微调部分参数,并进行多次训练以获得最佳性能模型。

本章网络模型主要对三个类别的病理图像进行分类,分别为炎症、淋巴增生和鼻咽癌。 网络模型通过预测每个类别的概率以进行诊断。其中,肿瘤区域复杂性高难以确定,故训 练过程中网络模型增加了肿瘤区域参数的权重分配,模型训练过程中能对更多肿瘤区域的 特征与信息进行学习,以提高分类准确性。

具体实验过程由图5.1所示:首先,由病理学家用0、1或2分别标注炎症、淋巴增生 和鼻咽癌的全景数字组织病理图像切片,后将这些全景数字组织病理图像切割成许多补丁, 并按适当的比例划分训练集、验证集和测试集。

关于补丁切割的细节如下:根据带标注的全景数字组织病理图像切片剪切补丁,每个 图像块补丁的尺寸为229X229X3 (高度X宽度X通道),同时将切下来的图像块补丁赋予 与父级全景数字组织病理图像切片相同的标签。

基于经公开数据集预训练的深度学习模型(Inceptiomv3),使用训练集中的图像块补 丁进行反复训练,不断微调使模型性能得到进一步提升,Inception-v3在最后全连接层输出 最终分类概率结果。其在训练过程中,根据损失函数的反馈不断地对参数进行调整,以改 善网络性能。最终网络完成所有图像基于炎症、淋巴增生和鼻咽癌三个类别的划分。

5.3实验相关设置

首先,本章节对于实验环境进行了相关配置,如下表5.3:

实验环境参数

中央处理器 32 核 Intel (R) Xeon (R) CPU

E5-2620@2.10GHz

内存 Supermicro SYS-7048GR-TR 512.0G
硬盘 HGST HUS726040ALE610 (APGNTD05 )4.0T
系统 Ubuntu 16.04
图形处理器 NVIDIA Tesla VI00
内存 64G

 

编程语言 Python 3.6.4
深度学习框架 Pytorch 1.0

表5.3实验环境参数

其次,对于本章搭建的神经网络,也进行了相关的网络初始化的参数的设置,这些初

始化参数对于网络模型的训练和设计有一定的影响,如表5.4设置:

模型初始化参数设置

随机种子 1314
批处理大小 64
进程数 4
类别权重 [1.0, 1.0, 1.34]
学习率 0.01
学习率衰减 20次迭代衰减0.8

表5.4模型初始化参数设置

5.4结果分析

表5.4列出了基于训练和验证集的训练模型的性能。

模型的训练和验证结果

数据集 准确 性 类别 需积 灵敏度 特异性
炎症 0.920 0.988 0.867
训练集 0.935 淋巴 0.980 0.999 0.892
癌症 0.950 0.977 0.896
炎症 0.912 0.929 0.869
验证集 0.905 淋巴 0.946 0.931 0.898
癌症 0.869 0.929 0.801

表5.4验证与测试结果

基于训练数据集,用于诊断炎症,淋巴增生和肿瘤的AUC,敏感性和特异性值为0.920、 0.988、0.867; 0.980、0.999、0.892;和 0.950、0.977 和 0.896。诊断的平均准确度为 0.935。 根据验证数据集,用于诊断炎症,淋巴增生和肿瘤的AUC,敏感性和特异性值为0.912、 0.929、0.869; 0.946、0.931、0.898;和 0.869、0.929、0.801。诊断的平均准确度为 0.905。

以上结果分析表明,该模型在训练集和验证集上均取得了不错的效果。基于测试集的模型结果如图5.2 (c)所示。诊断炎症,淋巴增生和肿瘤的AUC分别为0.905、0.972、0.930,平均AUC为0.936。根据AUC的评估标准,该模型性能表现较优。病理学家在相同的测试数据集上进行诊断,并以相同的方式评估医生的诊断。

图5.2不同情况下的ROC曲线。按行列排位

如图5.2 (d),图5.2 (e)和图5.2 (f)所示,对于初级病理学家而言,用于诊断炎症, 淋巴增生和肿瘤的AUC分别为0.815、0.961、0.933,平均值AUC为0.903。对于中级病 理学家来说,用于诊断炎症,淋巴增生和肿瘤的AUC分别为0.851、0.981、0.900,平均 AUC为0.909o对于高级病理学家而言,用于诊断炎症,淋巴增生和肿瘤的AUC分别为 0.910、0.982、0.975,平均AUC为0.956。总体而言,高级病理学家的诊断质量明显高于 其他病理学家。结果统计表明:该模型的性能优于初级和中级病理学家,并且评估指数的 值略低于高级病理学家。

在;一致性的评估方面,本章还使用三个指标对模型与病理学家的一致性进行评估。结

果如图5.3所示。

Consistency Evaluation of the Experiment

■ Combining all types of experience pathologists - Junior pathologist ■ Intermediate pathologist ■ Senior pathologist ■ Model

图5.3 —致性评估

对于该模型,Jaccard指数,欧氏距离和Kappa系数的值分别为0.879、0.242和0.815。 对于初级病理学家而言,Jaccard指数,欧几里得距离和Kappa因子的值分别为0.825、0.296 和0.735o对于中级病理学家,Jaccard指数,欧几里得距离和Kappa因子的值分别为0.860、 0.265; 0.842对于高级病理学家,Jaccard指数,欧几里得距离和Kappa因子的值分别为0.895、 0.230和0.842o同时,所有病理学家结合的Kappa系数为0.806。

另,对于本文模型在实际应用中的临床应用价值进行统计分析。如图5.4所示,是三 个不同层次经验的病理医生分别与模型进行联合诊断的结果。分析如下:对于初级病理医 生,诊断的准确率仅为82.40%,在医生诊断错误的17.60%中,模型可以对其中的89.80% 做出正确的诊断,若两者联合起来,最好的情况下,误诊率可降至1.80%;在模型与中级 以及模型与高级医生的联合诊断中,这一结果可同理得到。特别是高级医生与模型的联合 诊断,最终的误诊率最低可降至0.9%o分析表明模型对提高临床诊断的准确率意义重大, 且模型的诊断结果能为初级与中级医生提供较为可靠的参考。

Model diagnosis compared with intermediate pathologist diagnosis

Both diagnose incorrectly ■ Algorithms diagnose correctly, doctors diagnose incomctly

■ Both diagnose correct^ ■ Doctors diagnose correctly, algorithms diagnosis incorrectly

图5.4对本方法的总结分析

5.5小结

这项研究同时存在相关局限性如本文应用的模型仍有改进空间。首先,可改进网络结 构、加权策略和训练方法,以专门处理鼻咽癌数字病理图像的特征。目前,其他一些癌症 的数字病理图像分析的准确性己达到较高水平。因此,在NPC的自动化算法分析中还有 较大提升空间。其次,本研究中使用的分类中仅确定了肿瘤是否为癌症,但没有提供癌症 亚型的分类类别。

在临床实践中,对治疗方法选择和预后起着决定性作用的是鼻咽癌的亚型诊断结果。

亚型诊断在其他癌症的诊断中己有相关研究,并取得了良好的结果。例如,在非小细胞肺 癌的诊断中,Coudary等人[33]通过使用深度学习(平均AUC为0.97)来区分腺癌(LUAD) 和鳞状细胞癌(LUSC) o Yan等人[49]完成了乳腺癌的4级分类任务,其准确率达到 91.3%,优于最新方法。因此,下一步,实验应该尝试实现鼻咽癌的细分类,以提高模型 的临床价值。第三,本研究中选择的样本非常有限,不能代表整个NPC患者群体,因此 需要更多样本的多中心研究来验证本文的模型。Campanella等人[50]基于包含来自 15187个患者的44732个WSI的数据集评估了他们的框架,使他们的结果更具说服力。基 于大量数据的实验可以强有力地确认模型的鲁棒性和泛化性。总之,本文证明了根据各种 性能指标,深度学习模型的诊断能力可与病理学家媲美。本文的模型对WSI进行了定量 和客观的分析,以减少对病理学家经验的依赖性。一致性比具有一些经验的病理学家更 高。在临床诊断中,深度学习模型可以用作辅助工具,为病理学家提供诊断参考,从而减 少病理学家的工作量并提高临床诊断的效率和质量。

6章结论和展望

6.1工作总结

随着计算机计算速度的不断提升,大数据的计算成为现实,深度学习在近年也飞速发 展,特别是作为其重要分支的卷积神经网络,更是引发了各界学者的积极研究。无论是在 人脸识别、智能驾驶还是图像分类、行人检测等方面各种研究和应用层出不穷。在病理图 像分析领域,也深受卷积神经网络发展带来的影响。在未来,采用智能诊断己成为一个无 法阻挡的趋势。

本论文的主要研究内容和研究所进展的工作可以总结为以下几大方面:

  • 一开始本文主要介绍了本课题即基于卷积神经网络的数字组织病理图像分类 算法研究的背景和相关意义,并且对相关领域的国内外研究现状进行深入的介 绍和分析。同时本章也指出目前国内外研究中所存在的尚待解决的问题和不足 之处,提出了本文的研究目的、主要内容及论文的行文框架。
  • 第二章对相关理论进行了介绍,包括对本文的研究对象一一数字组织病理图像 的特性、卷积神经网络的相应框架以及卷积神经网络的主要组成层。其次分析 了代表性的分割卷积神经网络一一全卷积网络和分类卷积神经网络一一 Le-Net5,以及近些年发展的一种改进卷积神经网络的思想一一注意力机制。 为本文后续进一步介绍分类算法的研究内容奠定基础。
  • 第三章主要是介绍了基于卷积神经网络的快速癌症区域检测的算法,这一章是 启下的一章,由于组织病理图像尺寸巨大等特性,对组织病理图像整张分析困 难较大,所以算法首先应该对病理图像的感兴趣区域进行检测,这也是本章存 在的意义。同时介绍了本章节的算法所采用的数据集以及对数据集进行的相关 分析,而后深入介绍本章所搭建的快速癌症区域检测算法,其结果表明算法取 得较为不错的实验性能、能从组织病理图像中取得较好的实验效果。并在该章 小结中进行了实验效果的展示。
  • 第四章主要是将注意力机制应用于深度多尺度卷积神经网络,以实现数字病理 图像的分类,这是本章的创新点,也是本论文最为核心的一章。本章根据临床 医生的实际诊断步骤提出这一算法框架,对算法的整体逻辑进行了简要的分 析,而后对算法的步骤进行了比较深入的分析和陈述,同时对第5章节的数据 应用到本章的算法上进行实验,并取得了较为不错的结果和效果。
  • 第五章主要是讨论并分析了基于卷积神经网络的分类算法在组织病理图像上 的应用,本章是本文比较核心的一章。此章节先介绍了本算法所使用的数据集 信息,进行了较为深入的分析与统计,而后对本章的实验网络模型进行分析介 绍,结合着病理图像的特性进行分析,在章节的结果分析中,也创新性得和临 床医生进行了对比和总结,进一步验证基于病理图像的卷积神经网络的效果和 效率。对今后进一步深入研究有较大促进作用。

本论文的研究对象的数字组织病理图像,数字病理图像的组织的特性是本文对其进行 深入研究的最大动力和最终目的,正是由于其特异性,使得需要对其有比较适配的算法以 帮助这项研究工作能早日落地。并且,数字组织病理的标签获取困难,需要临床医生花费 大量时间进行标记,这对于算法的创新性提出了更高的要求。在认清研究背景以及目前研 究存在的不足时,本文提出了基于注意力机制的分类算法,经过实验也验证了此算法的可 行性。

6.2研究展望

虽然研究取得了一定的进展,但由于研究时间和精力有限等问题,本文所提出的算法 仍有所欠缺。今后的研究工作中,应对算法进行进一步的改善与提高,主要表现为以下几 个方面:

  • 卷积神经网络的研究虽然经过了一定的发展和沉淀,在某些方面得到了相对比较成 熟的效果,但是对于神经网络的可解释性和实际运用性,仍需要进行更多深入的研 究工作。因此,今后的研究工作中,一方面应该增加卷积神经网络的理论基础研究 以及丰富相应的算法、数学等知识的理论学习;另一方面,应密切关注卷积网络的 前沿发展情况,增加对卷积网络应用的各项研究,以推动卷积神经网络进一步在病 理图像上的应用。
  • 由于作者并非医学专业出身,在非常高要求的病理图像领域该研究非常依赖临床病 理医生的协助,在后续的学习中,应增强医学图像特别是病理图像的相关理论知识 学习,从临床诊断的实际出发、从临床病理的应用实际出发,和具备相关医学背景 的人员共同交流或研究,加快病理图像的智能分析的研究。
  • 另外,本文所提出、涉及的算法均是在图像块补丁的角度进行计算机处理的,而一 例病人是拥有上万甚至数十万个图像块补丁的。故后续研究工作中,应不断往病人 级别的图像方向上转变,其分析效果会更准确、更具说服力。

(4) 最后,在算法的计算效率方面仍有较大提升空间。算法优化对于临床的快速诊断具 有重大意义,在实际应用中,需配合算法优化提高计算速度,以加快在临床中的实 际应用。

参考文献

  • 秦文健.基于机器学习的医学影像分割关键问题研究及其在肿瘤诊疗中的应用[D].中 国科学院大学(中国科学院深圳先进技术研究院),2019.
  • Smits A, Kummer J, Bruin P, Mijke Bol, et al. The estimation of tumor cell percentage for molecular testing by pathologists is not accurate [J]. Modern Pathology, 2014, 27, 168-174.
  • Viray H, Li K, Long T A, et al. A prospective, multi-institutional diagnostic trial to determine pathologist accuracy in estimation of percentage of malignant cells [J]. Archives of Pathology & Laboratory Medicine, 2013, 137(11): 1545-1549.
  • Krizhevsky A, Sutskever I, Hinton G. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in neural information processing systems, 2012, 25(2): 1097-1105.
  • Bengio Y,Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks[C]. Proceedings of the Advances in Neural Information Processing Systems, 2007, 19: 153-160.
  • Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks[J], Science, 2006, 313(5786): 504-507.
  • Hubei D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cafs visual cortex[J]. The Journal of Physiology, 1962, 160(1):106-154.
  • Meyer P, Noblet V, Mazzara C, Lallement A. Survey on deep learning for radiotherapy [J]. Comput. Biol. Med., 2018, 98(5): 126-146, 2018.
  • Dou Q, Yu L, Chen H, et al. 3D Deeply Supervised Network for Automated Segmentation of Volumetric Medical Images [J]. Med. Image Anal., 2017, 41: 40-54.
  • Shin H, Roth H, Gao M, et al. Deep Convolutional Neural Networks for Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning [J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1285-1298.
  • Grinsven M, Ginneken B, Hoyng C B, Theelen T, Sanchez C I. Fast Convolutional Neural Network Training Using Selective Data Sampling: Application to Hemorrhage Detection in

Color Fundus Images [J]. IEEE Trans. Med. Imaging, 2016, 35(5): 1273-1284.

  • Hu Z, Tang J, Wang Z, Zhang K, Zhang L, Sun Q. Deep learning for image-based cancer detection and diagnosis — A survey [J]. Pattern Recognition, 2018, 83:134-149.
  • Esteva A, Kuprel B, Novoa R A, et al. Dermatologist-level classification of skin cancer with deep neural networks [J]. Nature, 2017, 542:115-11 &
  • Wang Y, Guan Q, Lao I, et al. Using deep convolutional neural networks for multi-classification of thyroid tumor by histopathology: a large-scale pilot study [J]. Ann Transl Med. 2019, 7(18):468.
  • De Fauw J, Ledsam J R, Romera-Paredes B, et al. Clinically applicable deep learning for diagnosis and referral in retinal disease[J]. Nature Medicine, 2018, 24:1342-1350.
  • Balazsi M, Blanco P, Zoroquiain P, Levine M D, BurnierJr M N. Invasive ductal breast carcinoma detector that is robust to image magnification in whole digital slides [J]. J. Med. Imaging, 2016,3(2): 1-9.
  • Dundar M M, Badve S, Bilgin G, Raykar V, Jain R, Sertel O, Gurcan M N. Computerized classification of intraductal breast lesions using histopathological images [J]. IEEE Trans. Biomed. Eng. ,2011, 58 (7):1977-1984.
  • Xu Y,Zhu J Y, Chang E, Tu Z. Multiple clustered instance learning for histopathology cancer image classification, segmentation and clustering[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012.
  • Xu Y,Zhang J, I. Eric, Chang C, Lai M, Tu Z. Context-constrained multiple instance learning for histopathology image segmentation[C]. International Conference on Medical Image Computing and Computer-Assisted Intervention, 2012.
  • Cheplygina V,Sorensen L, Tax D M, et al. LoogLabel stability in multiple instance learning[C]. International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015.
  • Robertsonab S, Azizpour H. Digital image analysis in breast pathologyfrom image processing techniques to artificial intelligence^]. Translational Research, 2018, 194: 19-35.
  • Li W, Zhang J, McKenna S J. Multiple instance cancer detection by boosting regularised trees[C]. International Conference on Medical Image Computing and Computer-Assisted

Intervention, 2015.

  • Paul A, Dey A, Mukheijee D P, Sivaswamy J, Tourani V. Regenerative random forest with automatic feature selection to detect mitosis in histopathological breast cancer images[C]. International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015.
  • Qin, P, Chen, J, Zeng, J, et al. Large-scale tissue histopathology image segmentation based on feature pyramid [J]. J Image Video Proc. 2018, 75.
  • Tokunaga H, Teramoto Y, Yoshizawa A, et al. Adaptive Weighting Multi-Field-Of^View CNN for Semantic Segmentation in Pathology[C]. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, 12597-12606.
  • Chan L, Hosseini M S, Rowsell C, et al. HistoSegNet: Semantic Segmentation of Histological Tissue Type in Whole Slide Images[C]. The IEEE International Conference on Computer Vision (ICCV), 2019, 10662-10671.
  • Quinlan J R. Induction of decision trees [J]. Machine Learning, 1986, 1:81-106.
  • Breiman L. Random forests [J]. Machine learning, 2001, 45:5-32.
  • Liaw A, Wiener M. Classification and regression by random forest[J]. R News, 2002, 2:18-22.
  • Cortes C, Vapnik V. Support-vector networks [J]. Machine Learning, 1995, 20:273-97.
  • Araujo T, Aresta G,Castro E, Rouco J, Aguiar P, Eloy C, Polonia A, Campilho A. Classification of breast cancer histology images using convolutional neural networks [J]. PloS One, 2017, 12(6): e0177544.
  • Rakhlin A, Shvets A, Iglovikov V, et al. Deep convolutional neural networks for breast cancer histology image analysis[C], International Conference Image Analysis and Recognition. Springer, Cham, 2018: 737-744.
  • Coudray N, Moreira A L, Sakellaropoulos T, et al. Classification and Mutation Prediction from Non-Small Cell Lung Cancer Histopathology Images using Deep Learning [J]. Nature Medicine, 2018, 24: 1559-1567.
  • Alom M Z, Aspiras T, Taha T M, et al. Histopathological image classification with deep convolutional neural networks [J]. Applications of Machine Learning, 2019, 11139X.
  • 郭筠秋,金连弘,刘强.组织学与胚胎学[M].北京:中国中医药出版社,
  • 陈俊艳.常规病理切片制作中常见的问题及处理方法[J].实用医技杂志,2012,

019(007):761-762.

  • Lecun Y,Bottou L, Bengio Y, Haffiier P. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
  • 史亮亮.基于卷积神经网络的医学图像分类方法研究[D].河北科技大学,2019.
  • 田娟,李英祥,李彤岩.激活函数在卷积神经网络中的对比研究[J]计算机系统应用, 2018,27(07):45-51.
  • 周志华.机器学习.北京:清华大学出版社,
  • Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C].

The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 3431-3440.

  • Lecun Y,Bottou L, Bengio Y, Haffiier P. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
  • Ghahramani Z, Welling M, Cortes C, et al. Recurrent Models of Visual Attention[C]. Neural Information Processing Systems, 2014, 27.
  • Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[C]. International Conference on Learning Representations, 2015.
  • Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[C]. 32nd International Conference on Machine Learning, 2015, 37: 2048-2057.
  • Wei J W, Tafe L J, Linnik Y A, et al. Pathologist-level classification of histologic patterns on resected lung adenocarcinoma slides with deep neural networks [J]. Scientific Reports, 2019, 9(3358).
  • Doi K. Computer-aided diagnosis in medical imaging: Historical review, current status and future potential[J]. Computerized Medical Imaging and Graphics, 2007, 31(4-5): 198-211.
  • AlZubaidi A K, Sideseq F B, Faeq A, Basil M. Computer aided diagnosis in digital pathology application: Review and perspective approach in lung cancer classification[C]. 2017 Annual Conference on New Trends in Information & Communications Technology Applications (NTICT), Baghdad, 2017, 219-224.
  • Yan R, Ren F, Wang Z, Wang L, Zhang T, Liu Y, Rao X, Zheng C, Zhang F: Breast cancer histopathological image classification using a hybrid deep neural network. Methods, 2019
  • Campanella G, Hanna M G, Geneslaw L, Miraflor A, Silva V W K, Busam K J, Brogi E,

Reuter V E, Klimstra D S, Fuchs T J: Clinical-grade computational pathology using weakly supervised deep learning on whole slide images. Nature Medicine, 2019, 25: 1301-1309

致谢

光阴似箭,日月如梭,三年的硕士研究生学习生涯马上就到落幕的时刻了, 回想起这三年的日日夜夜,众多画面浮现在我的眼前。遥想起3年前,从中山 大学调剂过来中国科学院深圳先进院,是我硕士生涯起点最重要的选择。因为 科苑的平台,深圳先进院独特的魅力,让我毫不犹豫接受了深圳先进院的录取, 开启了我人生的新征程。在即将完成毕业论文的阶段,向这个阶段关心、帮助、 支持过我的学业的人们致以最真挚的谢意和由衷的感激。

由衷的感谢我的导师熊璟老师和谢耀钦老师,是谢老师开启了我的硕士征 途,给了我学习进步的机会,指点我在科研前进的方向,给予了我科研发展的 空间和舞台,并在科研的很多关键阶段,给予了我莫大的帮助,让我明白科研 的道阻且难,并且教会我迎难而上。在此由衷祝愿谢老师在未来的科研道路披 荆斩棘,早日成为院士。

由衷的感谢秦文健老师,是秦老师带领我进入了数字组织图像处理的大门, 教会我科研处理的各种基本技能和方法,巩固了我的科研基础,让我可以在这 个领域内进行深入的研究工作,在工作遇到瓶颈的时候帮助我解决困难,在我 灰心的时候给予了我鼓励。在此衷心的感谢秦老师的帮助,并祝愿秦老师工作 顺利,身体健康。

此外,还需要感谢在三年中各个阶段帮助过我的同学、师兄师姐、师弟师 妹,是你们帮助我快速融入到科研生活,日常一起分享文献,进行学术交流, 互相帮忙互相解决问题,让我的科研道路更加顺畅。

并且,衷心的感谢我的父母,是你们的爱让我走到了今天,将来,我会用 优异的成绩和努力去回报父母的奉献。

最后,由衷的感谢专家组各位评审老师们的付出,在百忙之中抽出时间对 学生的研究生工作进行批评指正。