Self-attention_implicit_function_networks_for_3D_dental_data_completion

ZhuYuanxiang 2023-09-08 15:32:14
Categories: Tags:

论文标题

用于三维牙科数据的自注意力隐式函数网络

Ping Y, Wei G, Yang L, et al. Self-attention implicit function networks for 3D dental data completion[J]. Computer Aided Geometric Design, 2021, 90: 102026.

摘要

虽然完整的牙齿模型是数字牙科的关键,但目前的技术主要集中在3D牙冠,而忽视了牙龈在正畸和修复中的重要作用。为了从给定的牙冠数据中重建具有视觉真实感的完整牙齿模型,我们提出混合了自注意力机制的隐式函数表示方法。近年来的研究表明,隐式函数是形状补全的一种有效的三维表示方法。然而,现有的方法不能处理具有复杂形状和细节的牙齿模型,因为这些方法在网络中采用的是卷积和线性的操作,因此对于长依赖关系的建模是无效的,或者很难维护形状的几何细节。因此,我们是首次将自注意力引入到隐式函数网络中,并且利用它有效地捕获不同层次的非局部特征。广泛的消融研究证实了我们方法的有效性。定量和定性的比较说明该网络提取的特征具有更好的表达能力,从而对牙齿模型的实例和重建获得更好的结果。

关键词

牙齿模型补全,自注意力,隐式函数

Sec01 介绍

随着口腔健康意识的提升对专业的、高质量的牙科保健也需求也随之升级。为了满足这个日益增长的需要,牙科数字技术(如:计算机辅助设计和人工智能)在许多与牙科数据处理相关的应用中表现出了有希望的效果,参考:[^Xu,2018],[^Cui,2019],[^Wei,2020],[^Zhang,2020],[^Yang,2020],[^Le,2017],[^Na’Am,2018]。然而,大多数现有工作关注或者处理的都是牙冠数据,而忽略了牙龈,而牙龈与牙冠在一起才形成了完整的牙齿模型。例如,在正畸治疗中,虽然对于牙齿的主要关注是对齐,但是预览包括了牙齿和牙龈的治疗后的牙齿模型将极大地提高结果的保真度,并且有利于医患沟通。从一套设计良好的牙齿种植体中获得完整的牙齿模型对于生产缺牙患者的(全口或者部分)假牙也是至关重要的。

image-20211027134630762

图1:SA-FIN的两种牙科数据完成样例。左边的一对数据表示的是从输入的牙冠数据到输出的牙龈完成结果,而右边的一对数据表示的是从缺失了牙齿的牙齿模型到输出的牙齿完成结果。我们的方法忠实地再现了牙齿模型的几何细节。

在本文中,我们考虑了从部分输入中合成完整牙齿模型的问题,输入的数据包括:正畸治疗期间对齐的牙冠数据,或者如图1所示的待修复的缺失了牙齿的牙齿数据。这些问题已经在三维形状重建和完成领域得到了积极地探索,并且通过基于基于三维的神经隐式表示的方法[^Mescheder,2019],[^Park.2019],[^Chibane,2020]得到了最先进的结果。这些三维的隐式表示还展示了在连续函数空间中以(理论上的)任意分辨率建模复杂三维拓扑的优势。然而,牙齿模型包含许多几何细节,例如:牙齿和牙冠之间的褶皱或者相邻牙齿之间的凹部,使得牙齿数据与人的身体数据[^Pishchulin,2017]或者[^Change,2015]的 Shape Net 中由光滑的表面补丁组成的 CAD 模型。因此,基于隐式表示最先进的神经网络方法面对这个现实需要也将应用挑战,它们可能无法捕捉外观上如此精细的细节,从而无法生成可信的结果。

由于实际情况下,许多现存的工作[^Park,2019],[^Mescheder,2019]采用全局形状向量用于潜在形状表示,并且使用全连接网络对它们进行编码,但是它们在生成具有精细细节的3D形状方面效率较低。因此,[^Chibane,2020],[^Liu,2018],[^Peng,2020]提出了借助卷积网络的力量。然而,卷积机制的一个主要限制是:它仅在局部邻域中处理信息,并且通过堆叠多个卷积和池化层来扩大感受野(receptive field)来获得全局信息 。因此,基于卷积的方法可以捕获具有局部感受野的详细的形状特征,和具有大感受野的抽象特征,但是通常不能编码仅在大感受野中可见的相互依赖的跨距离的详细特征。即使是基于卷积机制的隐式函数表示的最先进的方法也会导致模糊或者过度平滑的结果,从而缺失了牙齿模型的精细的细节,尤其是牙龈和牙冠之间的过渡信息和牙龈信息。

根据上述的观察,我们提出了 SA-IFN 方法,该方法将自我注意力机制纳入了基于[^Chibane,2020]提出的 IF-Net 神经隐式方法。我们的关键思想是保留网络早期的细粒度特征,从而提供了生成清晰的几何细节的可能性。为了解决上述卷积机制的局限性,自注意力机制捕获数据中的长程相关性,提供了结构感知信息用于对卷积提取的局部特征进行建模,这种特性对于在给定查询点的情况下解码器做出更有把握的预测是非常重要的。所我们所知,这是第一次在学习隐式函数的网络的上下文中引入自注意力机制。SA-IFN 不仅可以从部分输入中推理出完整的牙齿模型,还可以在如图1所示的不同任务中再现可信的几何细节。

我们证明了我们所提出的方法的有效性,并且在不同的实验中使用最先进的方法评估了 SA-IFN,包括:仅从牙冠中实现牙龈完成,从稀疏的点云中重建牙齿数据,以及从缺失了牙齿的牙齿模型中实现牙齿完成。在定性和定量评估中,我们的方法与最先进的方法相比都表现出了更好的性能,并且可以合成可信的完成模型或者重建具有精细的几何细节的牙齿模型。总之,我们的主要贡献如下:

本文的其余部分如下:

Sec02 相关工作

2.1 三维形状表示

近年来,开发了许多基于学习的技术,用于三维重建和完成[^Han,2019]。依据三维形状的表示,这些工作可以分类为点云表示法、体素表示法和网格表示法。然而,这些表示方法都有缺点和局限性。

与前面介绍的显式描述三维形状的表示方法不同,隐式函数使用隐式场表示形状。已经做了一些工作来检查隐式函数在三维重建和完成任务上的影响。[^Carr,2001]引入了多重调和的径向基函数(Radial Basis Function,RBF),三维形状的表面被隐式地表示为 RBF 的零集合,RBF 与三维形状对齐。[^Shen,2004]发布了一个基于方法的隐式函数,通过在数据上移动最小均方值来插值表面。最近,研究者们已经在通过神经网络学习隐式函数的研究上展示了日益增长的兴趣。[^Mescheder,2019],[^Chen,2019]引入了学习占位区域的概念。给定一个查询点,占位网络用于预测该点在形状里面还是外面。[^Park,2019]提出了并行网络方法,通过神经网络学习有符号的距离场(Signed Distance Field,SDF)。网络学习的是形状的连续距离场,并且给出精确的SDF值用于测量点到形状表面的距离。这些早期的工作说明使用单个向量的形状对于生成具有复杂结构和细节的三维形状限制太多。[^Chibane,2020]通过扩充三维卷积提出了一个改进的隐式函数网络。为了代替使用单个的潜在向量,他们在不同层级提取潜在的形状特征,用于确定隐式值。虽然上述方法已经被用于单个人造对象或者人体的三维重建和完成工作,但是对于重构具有合理细节的复杂形状,特别是在牙齿数据上仍然充满挑战。这主要是因为执行池化操作和在不同的卷积层之间传递信息时会丢失信息,因此卷积网络在捕获全局特征时是无效的。因此,我们在本文中提出了一个集成了自注意力模块的隐式函数网络用于牙齿数据的重建和完成。

2.2 注意力与自注意力

注意力的最新发展提高了在数据中捕获全局依赖性的需求,它已经被广泛地应用于神经语言处理,并且提供了有希望的结果。之后,它被引入到图像字幕翻译和生成工作中。受机器翻译中注意力表现的启发,[^Xu,2015]引入了基于注意力的模型来演示图像。[^Gregor,2015]提出了深度循环注意力书写器(Deep Recurrent Attention Writer, DRAW)来模拟人眼通过注意力机制来引导图像。而且,自注意力的实现比传统的注意力方法更有计算效率。[^Cheng,2016]使用神经注意力扩展了长短期记忆(Long Short Term Memory, LSTM)结构,这种神经注意力可以诱导具有记忆效率的标签之间的关系。[^Vaswani,2017]证明了仅具有自注意模块的机器翻译网络仍然可以明显地减少训练的时间和参数,并且还具有最为先进的性能。[^Parmar, 2018]引入了基于自注意力的图像转换器(transformer)来生成逼真的、甚至能愚弄人类评估者的图像。[^Wang,2018]将自注意力扩展为一个非局部操作,从而任何位置的响应计算都可以看作所有其他位置的加权和,并在视频分类和图像识别中表现了出色的性能。[^Zhang,2019]提出了自注意力生成式对抗网络(Self-Attention Generative Adversarial Networks, SAGAN)用于生成具有更加合理的结构的图像。[^Liu,2019]结合了自注意力模块,以更加合理和清晰的模式重建人脸。在这种情况下,自注意力机制被看作非局部滤波器,用于从图像的所有特征位置的关联中捕获结构信息。在本文中,我们将自注意力应用到隐式函数的学习中,这种应用基于一种观察(即在给定查询点时,学习如何预测隐式值与计算一个图像像素位置的全局响应具有相似的形式),因此自注意力机制应该能够提供隐式解码器需要的精确信息。

Sec03 方法

image-20211027151932394

图2:我们提出的SA-IFN框架。具体来说,我们首先提取了输入牙齿模型的多尺度特征,并且通过预测占位区域来完成缺失的部分(如:牙龈)。特别地是,我们利用自注意力模块来更加有效地提取特征。

SA-IFN的全部管道如图2所示。给定的部分牙齿数据$X\in\mathcal{R}^{3\times N}$(如:没有牙龈的牙冠数据),我们首先通过三维卷积层提取多尺度特征${\mathbf{F}l}{l=1}^L$,其中$\mathbf{F}_l$表示通过第$l$层卷积层获得的特征图。因为越靠后的卷积层,其感受野越大,因此这些特征编码了从局部到全局范围的信息。然后,我们在每个尺度上计算特征图的自注意力权重,并且将它们连接为整个形状特征$[\mathbf{A}_1,\cdots,\mathbf{A}_L]$。为了生成完整的数据,我们在离散化的样本网格中使用三线性插值实现连续地查询,并且为样本网格中的每个查询点$q$,我们计算该点本身及其位于笛卡尔坐标方向上距离查询点距离为$d$的邻居的拼接特征,使用这个特征作为该点的特征。然后,解码器使用在点$q$获得的特征,预测其占用值以指示$q$是在表面模型的内部(1)还是外部(0)。我们通过[^Lorensen,1987]的行进立方体算法(Marching Cubes Algorithm)从占位区域中重建表面网格,并且获得最终的完整的牙齿模型。

在下面,我们首先描述的是在我们的方法中使用的自注意力模块,并且在多尺度设置中呈现这个方法。然后,我们详细阐述了网络的训练和推理。

3.1 从自注意力中学习

自注意力模块

为了捕捉深度特征之间的长程依赖,本文将自注意力机制融入到我们提出的方法(SA-IFN)中。正如后面所示,这个公式帮助网络在输出隐式表示时,再生细粒度的几何细节。

image-20211204094917247

图3:自注意力模型概览。使用2D代替3D描述过程

我们遵循[^Vaswani,2017]和[^Zhang,2019]提出的自注意力标准方式来设计了如图3所示的我们的自注意力机制。特别的是,输入特征图的$C$维张量$\mathbf{F}_l\in\mathcal{R}^{C\times HWD}$送入自注意力模型,并且先通过三个全连接层$\mathbf{q, k, v}$被变换到$C’$维空间中($C, H, W, D$表示特征图的通道大小、高度、宽度和深度)。我们将这三个变换后的特征空间称为查询空间、键空间和值空间。

因此,我们将$\mathbf{q}(\mathbf{F}l)$和$\mathbf{k}(\mathbf{F}l)$之间的相关矩阵表示为:
$$
\mathbf{C}
{i,j}^l=\mathbf{q}(\mathbf{F}
{l,i})^T\mathbf{k}(\mathbf{F}{l,j})
\in\mathcal{R}^{HWD\times HWD}
$$
然后,一个 softmax 操作应用到相关矩阵,导出注意力权重
$$
\mathbf{A}
{i,j}^l=\frac{\exp(\mathbf{C}{i,j}^l)}{\sum{j=1}^{HWD}\exp(\mathbf{C}_{i,j}^l)}
$$
值空间$\mathbf{v}(\mathbf{F}_l)$中的特征被上面导出的注意力权重$\mathbf{A}$重新赋权,以导出自注意力特征图
$$
\mathbf{E}_l=\mathbf{v}(\mathbf{F}_l)\mathbf{A}_l\in\mathcal{R}^{C’\times HWD}
$$
其中,在所有的实验中设置$C’=C/16$。

这些作为结果的特征图通过可以学习的线性变换$\mathbf{o}$进一步映射,权重来自于可以学习的标量$\alpha$,并且最终添加到原始的输入张量$\mathbf{F}_l$,其公式为
$$
\mathbf{O}_l=\alpha\cdot\mathbf{o}(\mathbf{E}_l)+\mathbf{F}_l
$$

多尺度编码与解码

由于我们的目标是提取深度特征,这些特征不仅能够再现输入形状的全局结构,并且能够再现输入形状的细粒度细节。因此,我们在编码过程中,通过利用多尺度卷积特征获取丰富的编码信息,这种多尺度卷积特征是由不同的卷积层生成的。如前所述,对于层$l$的特征图$\mathbf{F}_l$,我们计算它的自注意力特征图$\mathbf{O}_l$。因此,自注意力特征图的描述为${\mathbf{O}_1,\cdots,\mathbf{O}_L}$。

我们在查询点执行形状解码时,使用多尺度深度特征来代替基于3D位置和全局形状向量的组合。在空间域中,给定一个查询点$q$,我们通过三线性插值获得它的深度特征。此外,我们在该点及其邻居点上计算这个拼接特征,其邻居点是位于笛卡尔坐标方向上到查询点的距离不超过$d$的那些点,这种邻居点的特征用于收集邻居点的信息。这产生了深度特征的连续表示,在这个表示中集成了具有不同空间大小的深度特征。我们把这样的深度特征描述为${\mathbf{O}_1(q),\cdots,\mathbf{O}_L(q)}$。

因此,我们网络中的解码器将查询点$q$和自注意力深度特征${\mathbf{O}_1,\cdots,\mathbf{O}_L}$作为输入。它首先将$q$对应的特征向量$[\mathbf{O}_1(q),\cdots,\mathbf{O}_L(q)]$进行插值,然后在该点预测占位值。我们将点$q$是否在给定的形状中描述为1和0
$$
\mathcal{D}(q,{\mathbf{O}_q,\cdots,\mathbf{O}_L})\rightarrow{0,1}
$$
如我们的结果所示,我们的网络能够探索通过多尺度特征编码的丰富的信息,从而在牙齿模型上再现细粒度的几何细节,以及生成缺失的牙齿从而导出完整的牙齿模型。

3.2 网络训练与推理

给定部分输入的网格或者点云,我们首先将之转换为体素化表示$\mathbf{X}_c\in{0,1}^{HWD}$。如果输入数据中没有点在这个体素网格中,则其值设为0;否则设为1。为了提供网络训练的监督性,我们还为对应的输入的部分数据$\mathbf{X}_c$准备了(水密性)完整的牙齿模型$\mathcal{M}$。

我们送入$\mathbf{X}_c$到编码器网络$\mathcal{E}$中云获取多尺度、自注意力深度特征${\mathbf{O}l}{l=1}^L$。为了训练网络,我们从表面模型$\mathcal{M}$邻近的点的集合$P={p_i=\tilde{p}_i+z_i}$随机地抽样,其中$\tilde{p}_i$在$\mathcal{M}$上,$z_i$是遵循正态分布(即:$z_i\sim\mathcal{N}(\mathbf{0},\sigma)$ )的对应偏差。我们期望解码器网络$\mathcal{D}$能够成功地预测每个点$p_i$的占位值。因此,损失函数的公式
$$
L=\sum_i BCE(\mathcal{D}(p_i,{\mathbf{O}l}{l=1}^L),o(p_i))
$$
其中,$BCE$描述的是两进制交叉熵损失函数,$o(p_i)\in{0,1}$是点$p_i$的基准占位值。

特别的是,为了在完整的牙齿模型中学习精细的几何变化,查询点集合$P$从牙齿模型表面$\mathcal{M}$的极为接近的点中采样。除此之外,我们还合并了距离表面相对较远的一些点。这个采样规则期望网络能够从牙齿模型中学习到不仅有全局几何信息,还有细粒度的细节信息 。我们遵循[^Chibane,2020]提出的IF-Net网络,附加参数$\gamma=3$,这个$\gamma$是表面非常近的抽样点集合与表面非常远的抽样点集合之间的比例。

在我们的框架中,我们直接使用[^Chibane,2020]提出的IF-Net作为网络基线,[^Zhang,2019]提出的SAGAN作为自注意力模型。为了训练网络,我们使用Adam优化器,学习率为$1e-4$,其他参考[^Paszke,2019]的默认值。在一个NVIDIA 2080Ti GPU上总共消耗了24个小时完成收敛。由于网络同时获取牙齿数据中所有的采样查询点会超过网络的范围,因此我们将查询点分成次,并且在一个批次中将样本分成几个子样本以提高计算效率。

在推理时,我们也会从整个空间域中随机地采样查询点集合$\bar{P}$。我们使用训练好的网络来评估这些抽样点的占位值(参见公式5)。为了拼接邻居的卷积特征,邻居是定位在笛卡尔坐标方向距离为$d$的点,$d$的值是基于特定数据集由经验决定,我们使用的是$d=0.0722$,这个$d$表示体素边的长度。最终,我们使用[^Lorensen,1987]Marching Cubes 算法从体素域中提取等位面,从而获取一个光滑的表面模型$\mathcal{M}’$ 。

例如:在牙齿完成任务中,我们使用完整的牙齿模型,并且提取牙冠数据作为部分输入$\mathbf{X}_c$用于训练。除了牙齿完成外,为了完成类任务或者重建类任务,可以轻松地沿着上面描述的管道准备数据和训练网络,提供一个部分输入作为网格或者点云,并且提供它的完成模型作为封闭的表面模型。

Sec04 实验

数据集与实验设置。在本节中,我们对牙科诊所收集的大数据集进行定量与定性分析来验证我们提出的方法。数据集包含476个牙齿模型。使用不同的牙齿数据进行了三个不同的实验来证明所提出的方法的优点。为了完成牙齿实验,我们通过自动分割方法[^lian,2020]将每个牙齿上模型分成一对牙冠和相应的牙龈。对于牙齿数据重建实验,我们使用完整的牙齿模型。对于牙齿补全实验,我们将每个牙齿模型分成一对具有随机缺失牙齿的不完整牙齿模型(在上述每组分割后的牙冠中随机选择牙齿,然后从牙齿模型中切出)及其对应的完整牙齿模型。在所有实验中,数据集被随机分成三个子集,380个用于训练,48个用于验证,其余48个用于测试。我们使用相同的训练-验证-测试-分割来训练所有方法方便比较。

度量标准。为了定量评估我们的方法的性能,我们使用的三个度量标准:联合体积相交(Volumetric Intersection over Union, IoU)[^Mescheder,2019][^Chibane,2020]、倒角-L2(Chamfer-L2)[^Rubner,2000]、法线一致性(normal consistency)[^Mescheder,2019]。具体来说,IoU度量测量牙齿的预测和基准之间匹配度。Chamfer-L2测量两个形状之间的表面距离(即预测与基准)。法线一致性测量表面法线的精确度和一致性。

比较方法。在我们的实验中,我们与其他几种最新的基于隐函数的方法进行了比较,这些方法是为三维形状重建和补全而开发的:ONet[^Mescheder,2019];IF-Net[^Chibane,2020];IF-Net-Plus,这是原始IF-Net的调整版本,通过增加其可训练参数(255万)来与我们的SA-IFN参数(464万)进行公平比较。特别是,我们改变了原始IF-Net的通道数目来达成目标。

4.1 牙龈补全

对于牙龈补全任务,我们在测试阶段仅提供牙冠作为输入,并且要求SA-IFN生成一个完整的牙齿模型,模型中包括牙冠和缺失的牙龈。图4所示,相比ONet,在仅给定牙冠数据作为部分输入,我们的方法和IF-Net可以生成的完整牙齿模型的看似可信的结果。从放大视图中,我们可以看到我们生成的结果能够捕捉和再现牙冠和牙龈之间的褶皱,同时沿着牙弓平滑变化。然而,从我们的结果和基准模型来看,这种各向异性模式通常在IF-Net及其变体中缺失。

image-20211204111158090

图4:牙龈实例结果比较。从上到下每一行:输入的牙冠模型、IF-Net补全结果、IF-Net-Plus补全结果、SA-IFN补全结果、基准结果。牙冠与牙龈之间的过渡区域的放大视图(红框高亮)另一面在每个结果模型的上面。通过这个可以看出ONet没能生成有效的结果。虽然IF-Net和IF-Net-Plus可以推理出实例结果,但是牙冠与牙龈之间的过渡过于平滑。SA-IFN生成了明显的过渡,看起来更真实和合理。读者可以通过本文的web版本,可以找到图表中颜色的解释)

image-20211204112422716

图5:由ONet、原始的IF-Net、IF-Net-Plus和SA-IFN生成的曲率均值热图。过渡区域拥有突出的表面,因此过渡区域的曲率远离了0。这说明在我们的结果中,沿着过渡部分存在大的和连续的曲率值(连续的深红色),而另一方面,过渡区域的曲率值逼近于零(不连续和亮值),这说明过渡区域不明显,甚至不存在。

为了定量地显示差异,图5展示了放大区域中褶皱周围的曲率,以进行详细地比较。具体来说,我们利用了 MeshLab 的伪逆二次拟合算法[^Cignoni,2008]来计算每个顶点的平均曲率。从曲率图中可以看出,牙冠和牙龈之间的褶皱在我们的结果中变化保持一致,而且比较产生褶皱的方法发现要么过度平滑(ONet),要么无法连接(IF-Net和IF-Net-Plus)。这些结果也支持了我们的主张,即与其他最先进的方法相比,我们所提出的SA-IFN可以产生更加真实的充满细节的几何图形。我们在图6中展示了更多关于牙齿补全任务的结果(从不同的角度来看)。

image-20211204110923654

图6:不同视角的牙齿补全图库。相比最近的基准模型,我们方法的牙齿实例更加真实

表1中报告了根据三个指标进行的定量测量。表中说明SA-IFN相比其他最先进的模型获得了最好的性能。随着可训练参数的增强,IF-Net-Plus相比原始的IF-Net会有略微地提升。相反,SA-IFN的性能与IF-Net基线相比获得显著增长。这个比较证明了自注意力机制选择的价值。

image-20211204113732773

表1:在牙龈实例任务上基于不同的方法进行的定量测量。IoU的值越高越好;Chamfer-L2的值越低越好;法向一致性的值越高越好。表中说明SA-IFN在挑战性的牙龈实例任务是拥有最好的性能。

4.2 牙齿数据重建

为了充分反映本文方法的有效性,我们对所有列出的方法中的形状重建任务进行了额外的比较实验。与牙龈补全任务不同的是重建目标是远离输入牙冠的,重建任务提供补全信息(即牙冠和牙龈的样本点),并且相比3D形状重建任务更公平。重建结果的质量也可以证明不同方法的表现能力。

image-20211204135520829

图7:比较ONet、IF-Net、IF-Net-Plus和SA-IFN牙齿重建结果。从上到下分别是:不完整的点云、ONet重建结果、IF-Net重建结果、IF-Net-Plus重建结果、SA-IFN重建结果和基准数据。图中显示ONet仅重建了过分平滑的表面,没有有效的牙冠与牙龈;原始的IF-Net和IF-Net-Plus可以生成逼近的结构,但是这两个方法都没能重建牙齿数据的清晰的细节,如:邻近牙齿的边界和牙冠与牙龈的过渡,模糊的过渡混合了牙齿数据的不同区域和组成部分。我们的方法在比较中拥有了最好的性能,其输出结构既能重建全局结构,也能保存细节。

为此,我们从完整的牙齿模型中随机采样稀疏点,并且将这些采样点用作输入。这个牙齿重建任务也很有挑战性,因为输入非常稀疏。图7显示了本文方法与其他方法的比较结果。当比较的方法可以重建整个牙齿模型的逼近轮廓,他们就无法生成细粒度的几何细节,如:邻近牙齿之间的清晰褶皱(ONet和IF-Net)或者牙齿与牙龈之间的清晰褶皱(IF-Net-Plus)。相反,我们的方法不仅可以恢复全局结构,还可以得到重要的细节,从而产生更加合理的牙齿模型。我们也在图8中展示了定量的结果。

image-20211204151531804

图8:牙齿数据重建的结果图库。使用稀疏的点云作为输入,我们的SA-IFN可以重建出拥有细节的形状。我们还展示了四个不同视角的重建结果。

4.3 牙齿补全

在数字假牙修复领域,对牙齿模型的缺失牙齿进行补全是一个非常重要的应用。其中功能上合理,并且视觉上舒适的补全结果可以为医生与患者的交流提供参考方案。

image-20220218152404637

图9:牙齿补全结果。左列是缺失某些牙齿的不完整输入,中间的列是我们的方法的补全结果,右边的列是对应的基准数据。我们展示了四类牙齿,所有结果都说明我们的方法可以成功地推理出缺失的牙齿。合理的补全结果可以为牙齿生产和制定治疗计划提供帮助和重要的参考。

为此,我们在缺失牙齿的牙齿数据上训练我们的网络,并且要求这个网络从这样一个不完整的牙齿模型中推断出牙齿。图9展示了本文方法的一些定性结果,证明了它在牙齿模型上准确地推断不同类型的缺失牙齿和在牙科领域的应用潜能。对合成结果的定量评价,本文方法获得平均分数:IoU为0.92,Chamfer-L2为$0.069\times 10^{-2}$, 法向一致性为0.856。

4.4 自注意力深度分析

image-20211204152924659

图10:两个不同样本在各自的行进行注意力图的可视化 。我们展示了3D注意力图在查询体素上的交叉部分。查询体素被标记为绿色,更高响应的像素位置拥有更亮的颜色。

如图10所示,为了更好地解释自注意力模块的功能,我们在每两个样本之间,对随机查询体素和所有其他体素之间可视化3D注意力。我们在训练好的 SA-IFN 中使用自注意力模块获得了查询体素(标记为绿色)的全局响应,这个结果就是3D注意力图。在本实验中,注意力图使用分辨率为$16\times 16\times 16$卷积特征进行计算,但是从其他层获得的卷积特征得到了相似的结果。在每个查询体素,我们可视化了3D注意力图的交叉部分。这个可视化表明注意力像素的位置(更亮的点)可以离查询的位置很远,验证了SA模型有能力聚焦更长距离的信息。

Sec05 结论

在本文中,我们开发了SA-IFN(一个具有自注意力机制的隐式函数神经网络)用于牙齿数据的补全。面对仅提供了部分输入(如:没有牙龈的牙冠数据或者缺失牙齿的牙齿模型),配备了自注意力机制的SA-IFN能够生成一个真实的、完整的牙齿模型,模型具备了可信的细粒度的几何细节。对于完成和重建任务,定性和定量的结果验证了我们设计网络时对自注意力机制的选择,并且证明了我们所提出方法的有效性。我们还展示了本文的方法在数字牙科应用中的潜力。

局限性与未来工作

虽然在这项工作中,我们从几何的角度评估了结果,但是在未来的工作中,我们希望从临床的角度评估我们的方法及其结果。在这个阶段,对于给定了牙齿的上颌或者下颌作为输入,我们只专注于修复看似可信的缺失牙或者看似可信的牙龈。因此,还没有讨论牙齿模型的功能(如:正常咬合,即上颌牙齿与下颌牙齿之间的正确匹配)在牙科中的重要性.然而,如果训练数据包含了大多数具有正常咬合关系的牙齿模型,那么修复牙齿的功能也就能够保留,并且我们的方法可以作为基础用于生成结果,并且结果满足复杂的功能约束。我们将在未来的工作中系统地探索如何加强修复牙的功能,以使结果满足一些功能性的需要(如:Andrew六键)。由于牙齿模型是由不同的材料制成(即牙齿和牙龈),我们还想扩展我们的神经隐式表示,以便在牙齿模型中模型化这类材料的异质性,从而产生更加真实,并且临床可行的结果。