使用 SVision-pro 发现从头和体细胞结构变异

SVision-pro 方法论

SVision-pro的整体工作流程

SVision-pro 首先在病例基因组中搜索候选 SV 位点，然后序列到图像模块对基因组到基因组图像进行编码，以直观地比较病例和对照基因组。然后，基于神经网络的实例分割框架从编码图像中识别基本的 SV 组件类型，并确定病例基因组和对照基因组之间的基因组差异。请注意，如果有几个控制基因组（氮和氮 > 1) 已指定，SVision-pro 工作在 1-to-氮模式并生成病例基因组和每个对照基因组的表示图像。因此，实例分割框架输出病例基因组和每个对照基因组之间的 SV 差异。

从病例基因组中搜索候选 SV 基因座

SVision-pro 通过以无模型的方式收集和聚类异常读取比对来识别候选 SV 基因座，从而避免搜索读取比对的特定异常模式（扩展数据图 1）。 1）。具体来说，SVision-pro将每个reads转换为一系列签名符号，这些签名符号可以直接从BAM文件中提取：M表示比对到参考基因组的直接映射，V表示反向映射，I表示reads中的附加序列。此外，为每个签名符号分配了几个属性，包括其在参考序列上的跨度、在读取序列上的跨度、子序列长度和读取名称。通常，符号 M 和 V 根据其参考跨度（参考起始和结束位置）和映射方向从分割读取比对（主要和补充比对）转换而来。符号 I 来自读段内比对（通过检查 CIGAR 字符串）和读段间比对（通过检索分割比对之间的未映射序列）（扩展数据图 1）。 1a）。请注意，对于 I，如果未映射的序列与参考序列上的远端位置对齐，SVision-pro 通过重新编码附加源参考跨度将其标记为映射的 I。最后，每次读取都被转换成一系列按读取顺序排列的符号。例如，如果一次读取不跨越任何 SV，则只有一个符号 M（扩展数据图 1）。 1b）。如果读取跨越删除，则读取将被转换为符号系列MM，其中第一个M的参考结束位置和最后一个M的参考开始位置之间存在间隙（扩展数据图1）。 1c）。对于复杂事件，例如与反转相关的删除，事件支持读取被转换为符号系列 MVM（扩展数据图 1）。 1天）。通过采用这种约定，我们能够迭代地对相似的读取符号系列进行聚类并识别任何异常符号（扩展数据图 1）。 1e）。具有转换后的符号系列M的读取被认为是正常读取，否则将被标记为异常读取。如果支持相同异常符号系列的reads数量超过最低要求（默认10个reads），则异常符号系列覆盖的基因组区域被认为是候选SV位点。

候选 SV 基因座的图像表示

为了生成表示图像，SVision-pro 采取两个主要步骤：结构草图（扩展数据图 1） 2）和内容渲染（扩展数据图） 3）。

(1)

结构草图：对于候选SV位点，结构草图步骤直接将一维读取符号系列转换为二维相似图像（扩展数据图1）。 2a），它使用片段和间隙来直观地测量参考序列之间的映射相似度（X 轴）针对变体特征序列（y 轴）。参考轴的范围是从第一个符号的起始参考位置到最后一个符号的结束参考位置。读取轴的范围是从0到读取的长度。通常，段是从符号M、V和映射的I导出的，而间隙是从未映射的符号I以及M和V符号之间的参考间隙导出的。片段和间隙（不包括从 M 符号转换而来的片段和间隙）都标有异常标志，用于后续内容呈现步骤（扩展数据图 1）。 2b）。这种类型的相似性图像使人类和机器可以轻松地可视化 SV 结构。
(2)

内容渲染：SVision-pro 使用源自病例和对照基因组的 ACT 填充相似图像中的稀疏区域。

生成 ACT

受到综合基因组查看器 (IGV) 中常用的常规覆盖轨道的启发²⁹，SVision-pro介绍ACT。简而言之，常规覆盖轨迹是一个 2D 灰度条形图，其中 X轴指示参考位置和 y轴表示覆盖值，该值是通过计算每个参考位置处的映射对齐数来计算的（扩展数据图 1）。 3a）。 SVision-pro 中的 ACT 利用 RGB（红、绿和蓝）堆叠条形图来编码反映 SV 特征的附加基因组信息。在构建 ACT 之前（扩展数据图 1） 3a），我们计算比对的数量及其映射条件。比对的映射条件包括正向映射、反向映射、重复映射和反向重复映射。正向和反向映射条件直接从比对器的输出中检索，并通过检查比对是否被来自同一读取的其他比对包含来确定重复比对（扩展数据图1）。 3a）。

接下来，我们将计数表转换为三通道 RGB 图像。我们使用 RGB 颜色值（135、206、255）来绘制前向映射对齐的覆盖值。对于反向对齐的覆盖值，我们从第二个通道的颜色值中减去 100（补充图 1）。 1a）。同样，对于重复对齐的覆盖值，我们从第三个通道的颜色值中减去 100（补充图 1）。 1b）。在反向重复对齐的情况下，第二个和第三个通道都减去 100（补充图 1）。 1c）。简而言之，我们使用第二个图像通道来描述反向签名，使用第三个图像通道来描述重复签名。通过利用 ACT 中的 RGB 堆叠条形图，SVision-pro 提供了更全面的覆盖信息表示，结合不同的颜色变化来描述不同类型的比对及其对 SV 签名的贡献。

将 ACT 填充到相似图像中

基因组间比较需要比较表示特征来对比病例基因组和对照基因组之间的 SV 差异。因此，我们利用相似图像中的稀疏区域来填充源自病例和对照基因组的两个 ACT（扩展数据图 1）。 3b）。为了实现这一点，我们首先沿着这些草图线段和间隙创建两个固定高度和空的轨道：上面一个轨道（上轨道）和下面一个轨道（下轨道）。上轨道用于填充对照基因组的 ACT，而下轨道用于填充病例基因组的 ACT。对于草绘的相似性图像 i，我们通过获取从 i.reference_start 到 i.reference_end 的所有读取比对，在病例基因组和对照基因组中生成 ACT。这确保了所绘制的相似图像的参考跨度与 ACT 的参考跨度相匹配。接下来，我们通过对齐参考坐标将 ACT 填充到围绕异常片段和间隙的上/下轨道中。对比上下轨道中的 ACT，显示病例基因组和对照基因组之间存在明显的 SV 差异。此外，这种相似性图像和 ACT 保持了人类和机器的可读性，以供进一步分析。

插入相关的 SV 表示

插入和插入相关的 SV 涉及读取序列中存在的附加序列，但参考序列中没有，导致绘制的相似性图像中出现垂直间隙（补充图 1）。 2a）。因此，对于插入，我们创建了两个空轨道，位于这些插入引起的垂直间隙的左侧（用于填充对照基因组的 ACT）和右侧（用于填充病例基因组的 ACT）（补充图 1）。 2b）。与删除、倒置和重复不同，我们根据参考基因组计算比对映射条件，对于插入，我们在读段级别对比对进行计数，以计算包含插入序列的读段数（补充图 1）。 2c）。然后，我们为病例基因组和对照基因组生成垂直 ACT，并将它们分别填充到右侧和左侧的空轨道中。对于插入相关的 CSV，例如插入相关的倒置，比对在读取级别和参考级别进行计数（补充图 1）。 2d）。

一对一氮模式

SVision-pro 中的基因组到基因组表示模块允许在单个图像中比较一个病例基因组与一个对照基因组。然而，在某些应用中，例如从头 SV 发现，涉及多个控制基因组。为了适应这种情况，SVision-pro 采用了一对一氮模式来生成病例基因组和每个对照基因组之间的图像。例如，三人组中的从头 SV 发现包含三个基因组：孩子、父亲和母亲。对于候选 SV 基因座，SVision-pro 会生成一张将子代基因组与父亲基因组进行比较的图像，以及另一张将子代基因组与母亲基因组进行比较的图像。此过程会产生两个图像，后续实例分割框架可以利用它们进行进一步分析。通过采用一对一氮在模式下，SVision-pro 可以将病例基因组与多个对照基因组进行直接比较。此外，SVision-pro可以通过将一个基因组作为病例基因组，将所有其他基因组作为对照基因组，识别多个基因组中任何基因组特异性的SV。

表征图像的灵活特性

图像尺寸、颜色和轨道高度灵活，可定制以满足各种应用场景。目前，SVision-pro 针对不同的灵敏度需求提供了 256、512 和 1,024 三种可选的图像尺寸，其渲染内容的轨道高度分别为 25、50 和 100 像素。因此，三种图像尺寸的最小可表示（1 个像素）和可检测 AF（每个轨道高度一个）分别为 0.04、0.02 和 0.01。请注意，AF 0.01 并不是 SVision-pro 的最低检测极限，可以自定义轨道高度和图像尺寸以满足较低的 AF 检测要求。

通过实例分割进行 SV 检测和基因分型

编码的表示图像直接输入基于神经网络的实例分割框架，无需任何手动或面向知识的预处理。由于 CSV 通常包含多个内部子组件，因此 SVision-pro 中的实例分段框架旨在识别五种基本子组件类型，包括插入 (INS)、删除 (DEL)、反转 (INV)、重复 (DUP) 和反向重复 (invDUP) ）。如果对照基因组中不存在 SV，则包含识别类型参考 (REF) 以表示对照基因组与参考基因组相同。具体来说，实例分割框架识别编码图像中的这六种实例类型并生成分割掩码。掩模将图像中的每个像素分配给预测的特定类型或背景类型，分割图像区域并提供有关各种 SV 子组件的存在和位置的定量信息（扩展数据图 1）。 4a）。屏蔽区域的水平跨度代表子成分的断点跨度，而垂直跨度代表等位基因频率（扩展数据图1）。 4b）。最后，在各个面板中，我们通过将这些子组件按读取顺序直接连接在一起，获得候选基因座的最终 SV 类型。通过对比分割掩模图像中的下面板和上面板，SVision-pro可以确定SV子组件是否是（扩展数据图1）。 4b) 种系，表明 SV 子成分以相同的等位基因频率存在于对照基因组中； (2)新等位基因，表明SV亚成分以不同的等位基因频率存在于对照基因组中； (3) 新组件，表明对照基因组中不存在 SV 子组件，或 (4) 新断点，表明 SV 子组件存在于对照基因组中，但断点跨度不同。如果提供了多个对照基因组，例如从头SV发现场景中的父亲和母亲基因组，SVision-pro将输出病例基因组和每个对照基因组之间的差异（扩展数据图1）。 4c）。

绩效基准测试方法

HG002 groundtruth 中的 SSV 检测基准

HG002（Ashkenazim Trio，儿子）的真实 SSV（HG002_SVs_Tier1_v0.6.vcf.gz，高置信度插入和删除）用于对调用者的 SSV 检测性能进行基准测试。详细的数据生成步骤与cuteSV中描述的相同³ 纸。简而言之，使用 Minimap2 将原始 HiFi 和 ONT 读数与人类基因组 GRCh37 进行比对（参考文献 1）。 ³⁰）带有参数“-x pacbio/ont”。七个最先进的呼叫器，包括 SVision-pro、SVision⁶，鼻烟2（参考。 ¹⁵), 可爱SV³，坏蛋⁴、pbsv 和 SVDSS⁵，应用于比对读取，最小 SV 支持读取数设置为 10。特鲁瓦里³¹ 用于计算真实值和调用集之间的精度、召回率和 F1 分数。请参阅补充说明 6 每个调用者的具体版本和参数。

模拟数据中的 CSV 检测基准

CSV 模拟集包含 3,000 个跨越 10 种常见报告类型的 CSV，直接从我们之前的 SVision 论文中获得⁶。我们遵循本文中描述的相同程序来生成 HiFi 和 ONT 读取，并通过 NGMLR 与 GRCh38 进行后续比对²。 HG002 真实数据集上表现最好的五个调用者（SVision-pro、SVision、Sniffles2、cuteSV 和 debreak）被用于后续基于 Truvari 区域的比较。通过检查 CSV 子组件的准确性来进行基于类型的比较。为了实现这一点（补充图 3a），我们首先从Truvari输出文件中提取groundtruth和callset之间匹配的SV记录对，即TP-base.vcf和TP-call.vcf，它们分别枚举groundtruth记录和匹配的callset记录。然后，对于每个匹配的记录对，如果调用的记录中缺少真实记录中的任何 SV 分量，则该记录对被标记为不准确（补充图 1）。 3b）。请注意，只有 SVision-pro 和 SVision 报告了 SV 组件类型。对于其余的调用者，由于他们仅报告 SSV 和有限数量的 CSV 类型，因此我们将其输出类型直接视为组件类型。

六个家系的孟德尔一致性分析

我们从之前发表的 6 个家族中收集了 19 个孟德尔样本，包括 Ashkenazim Trio、Chinese Trio、YRI Trio、CHS Trio、PUR Trio 和 Chinese Quartet（补充表 1）。所有六个家族均使用 HiFi 读数进行测序，德系三重奏、中国三重奏和中国四重奏也使用 ONT 读数进行测序。使用 Minimap2 将所有读数与 GRCh38 基因组进行比对。我们使用了五个调用程序，包括 SVision-pro、SVision、Sniffles2、cuteSV 和 debreak，以及两种合并方法，包括 Jasmine 和 SURVIVOR。对于 SVision-pro，我们将儿童样本视为病例基因组，将父母样本视为对照基因组。 Sniffles2 按照官方说明采用多样本调用模式。对于其余三个需要合并方法的调用者，我们首先独立应用它们来为每个样本生成调用集，包括孩子、父亲和母亲。然后，我们通过 Jasmine 和 SURVIVOR 使用默认或推荐参数将这些调用集（例如，对于 ChineseQuartet，有四个调用集）合并在一起（补充说明 2）。为了测量每个家族内的孟德尔一致性，我们从 VCF 中的每个 SV 记录中提取了孩子和父母的基因型。如果孩子、父亲和母亲的基因型符合孟德尔定律，我们就将这一记录标记为一致记录。最后，我们通过将一致记录数除以记录总数来计算孟德尔一致性率。

《中国四重奏》中的双胞胎不和谐分析

一个常见的假设是同卵双胞胎的基因组几乎相同³²。因此，使用中国四方中的同卵双胞胎（称为child1和child2）来计算双胞胎不和谐度。简而言之，如果一个 SV 存在于 child1 基因组中，而 child2 基因组中不存在，我们会认为该 SV 是双胞胎之间不一致的 SV。因此，对于每个 SV 记录，我们提取了 child1 和 child2 的输出基因型并检查它们是否相同。最后，我们通过将不一致记录数除以记录总数来计算孪生不一致度。

六个家族的从头 SV 分析

对于SVision-pro，通过检查孩子与父亲和孩子与母亲的比较结果是否都是“新成分”来提取从头SV。对于 Sniffles2 和合并方法，通过检查 SUPP_VEC 是否等于 100 来提取从头 SV 记录，表明该 SV 记录仅存在于子基因组中。此外，我们还比较了 SVision-pro 和 Sniffles2 之间的 de novo SV。来自 Sniffles2 的从头 SV 调用与使用 BEDtools 的 SVision-pro 的所有 SV 调用重叠³³ intersect 选项，重叠分数倒数设置为 0.5。由于合并方法会产生更多冗余的 de novo SV，因此我们仅使用 IGV 手动验证 SVision-pro 和 Sniffles2 调用的 de novo SV²⁹ （补充文件 4 和 5）。

肿瘤-正常配对细胞系 HCC1395 的体细胞 SV 分析

之前的一项研究²⁷ 利用多种测序技术，在细胞系 HCC1395 及其正常对 HCC1395BL 上建立了包含 1,788 个 SV 的共有体细胞 SV 调用集。我们下载了两个细胞系的已发布的 HiFi、ONT 和 PacBio CLR 长读长，并通过 Minimap2 使用参数“-x pacbio”将它们与人类基因组 GRCh38 进行比对。在这个肿瘤-正常配对细胞系上使用了三个能够检测体细胞 SV 的调用程序，包括 SVision-pro、Sniffles2 和 nanomonsv。 SVision-pro以肿瘤细胞系作为病例基因组，正常细胞系作为对照基因组。 Sniffles2 以其非种系模式使用，nanomonsv 根据官方说明使用。对于三个调用者，支持读取的最小数量设置为 2，最小可检测 AF 设置为 0.01。

高置信度区域过滤器

原始高置信度区域 (HG002_SVs_Tier1_v0.6.bed) 基于 hg19。因此，遵循 SVDSS 论文的说明⁵，我们首先使用 liftOver 将这些区域转换为基于 hg38 的坐标。然后，我们应用 BEDtools intersect 选项，并将倒数重叠分数设置为 0.5，以过滤掉不在高置信区域内的 SV 调用。