CRISPR-广泛框架
我们开发了一个用于检测 gRNA 的程序管道,并在 Python 中将其作为独立应用程序实现(图 1)。 1A)。 为了加速 gRNA 选择,我们采用了多线程并使用了大数据 Python 模块 Pandas。 这允许分割数百万个短序列以映射和处理大量未压缩的比对。 CRISPR-broad 的不同步骤和选项在七个不同的模块中实现(在带有 Pandas 和 PyRanges 包的 Python 中),以避免重新执行计算要求较高的步骤。 提供了多种用户输入选项(图 1)。 1b).
CRISPR-broad 的模块和功能。 (A) CRISPR-broad 工具的工作方案。 该管道中的几个步骤是多线程的。 输入是 multiFASTA 基因组文件,每个步骤都可以单独执行。 索引和映射步骤有时间限制,可以单独执行。 该管道的输出是文本格式的 gRNA 排名列表。 (乙) 显示了 CRISPR-broad 执行中的不同模块、它们的功能和适用性以及用户输入的相应选项。 运行各个模块的不同选项在以下位置有详细描述: https://github.com/AlagurajVeluchamy/CRISPR-broad。
线虫 和 H. 怀斯 基因组表现出广泛的 gRNA 选择可能性,可针对广泛的区域
运行 CRISPR-broad 线虫 基因组(目标窗口大小 50 kb),我们获得了 5,734,064 个候选 gRNA,其 3′ 端具有 Cas9 PAM 模式 NGG,5′ 端侧翼有 20 nt。 我们允许从 0 到 3 的不匹配范围来映射到 线虫 使用 Bowtie2 中的“端到端”所有比对选项进行基因组组装 Ce235。 解析大的成对比对以查找插入缺失和匹配,以计算排名分数。 这些候选 gRNA 中约 18% 被定位到多个位点。 我们进一步过滤了与少于五个基因组位点对齐的条目。 我们的分析产生了 27,858 个 gRNA(所选窗口中≥ 5 个命中),可以靶向 6421 个独特的 50 kb 区域(补充图 1)。 2A)。
接下来,我们扫描人类基因组(目标窗口大小 500 kb)并以 50% GC 的截止值过滤候选 gRNA。 这产生了大约 1.2 亿个 gRNA。 我们对这些序列进行了映射,错配范围从 0 到 3,最大命中数为 10,000。 多重映射位置在其 3′ 端验证 PAM 序列并合并。 我们进一步处理了基因组中至少有五个命中的候选 gRNA。 这种组合过滤产生了 2,413,602 (0.6%) 个 gRNA,它们针对 1,678,629 个窗口(补充图 2)。 2b). 具有至少五个基因座的可靶向窗口,用于独特的 gRNA 线虫 和 H. 怀斯 基因组分布在不同的染色体上(补充图1)。 2b). 两个样本基因组的聚合 gRNA 得分模式分布表明,尽管脱靶率很高(负得分),但这些基因组中的大量高得分区域可用于 gRNA 靶向(图 1)。 2A)。 无论基因组大小或序列内容如何,总得分随着脱靶数量的增加而下降,从而验证了基于得分的 gRNA 选择(图 1)。 2公元前)。
箱间距离定义了两个目标区域之间的间隙,因此说明了目标窗口的密度。 对有或没有脱靶的不同 gRNA 候选者之间的该参数进行分析表明,gRNA 分布在不同染色体上没有偏差(图 1)。 3A)。 增加窗口大小和选择多靶点 gRNA 进一步支持寻找潜在的 gRNA(图 1)。 3b).
最大限度地减少潜在的脱靶
典型的独特 sgRNA 选择涉及减少多个基因组区域的脱靶命中并寻找独特的靶序列。 基因组中的串联重复是脱靶效应的原因之一。 CRISPR-broad 使用这些重复事件来检测 bin(大型基因组区域)中的 gRNA。 更大的窗口大小可以减少我们工具中 gRNA 潜在的脱靶效应。 从命中和脱靶命中的数量可以明显看出这一点(图 1)。 3b).
每个 sgRNA 在基因组中总共有 N 个命中,在目标窗口中有 T 个命中,在脱靶(50/500 kb 目标窗口之外/不同的区域)中有 O 个命中。 当分析 线虫 和 H. 怀斯 基因组中,N 和 O 之间没有相关性(图 2)。 4a、b)。 与脱靶相比,50 kb 和 500 kb 窗口显示了大量的靶标,揭示了广泛的可选择区域。 事实上,可以识别出显示大量 gRNA 基因座且脱靶率为零的正靶区域。 这包括人类 1 号染色体的着丝粒周围区域,该区域有 272 个 gRNA 位点,没有明显的脱靶(补充图 1)。 3A)。 同样,在 线虫 窗口大小为 10 kb 的分析揭示了 X 染色体上的一个区域(chrX:7351-7361 kb),其中至少可以找到一个 gRNA 的 1000 个位点(补充图 1)。 3b). 两者中确定的候选目标区域, 线虫 和 H. 怀斯 不限于功能注释的重复区域(例如端粒、卫星),这些区域可以通过经典 gRNA 设计工具(如 CHOPCHOP)直接靶向(补充图 1)。 3光盘)。
通过分析得出的 CRISPR-broad 评分的全球比较 线虫 和 H. 怀斯 将基因组与独立的、最先进的单个 gRNA 脱靶扫描工具 (CasOffinder) 的结果进行比较,表明对于被确定具有较低预测脱靶数量的 gRNA,这些结果较高(图 1)。 4光盘)。 这支持了我们的评分方法与多靶点 gRNA 的选择相关的观点。
基于目标窗口和脱靶位点的 gRNA 总分
我们计算了与选定基因座匹配的 gRNA 的累积分数,并包括发现脱靶情况的惩罚分数。 这些分数范围从 − 1 到 + 1。在分析的两个基因组中, 线虫 和 H. 怀斯 我们观察到总 gRNA 得分两侧的极值存在偏差,即许多 gRNA 要么是多靶向的良好候选者,具有许多命中且没有脱靶(总 gRNA 得分接近 + 1),要么表现出许多缺陷-目标命中和错配(gRNA 总分接近 – 1)(图 1) 2A)。 观察到的非常高的负聚合 gRNA 分数反映了重复元件,例如 Alu 序列、LINE-1 逆转录转座子、MIR 和人内源逆转录病毒 (HERV),它们代表人类基因组的 55%,以多个拷贝出现27。 同样,在 线虫 基因组 MITE 序列重复可能会增加脱靶数量28。 这些脱靶与 gRNA 总分相关(图 1)。 2公元前)。
sgRNA效率与核苷酸序列的GC含量相关29。 我们探讨了 GC 含量特征是否影响可用 gRNA 的数量(具有大量的目标命中和较低的脱靶命中)。 总 gRNA 分数(每个窗口的 gRNA 分数)与序列的 GC 含量差异很大(图 1)。 5)。 这表明 CRISPR-broad 扫描了广泛的 gRNA,这些 gRNA 可能具有不同水平的重复核苷酸序列。 重复元件可能富含 AT,并且基于 gRNA 评分的 gRNA 选择不受 GC 含量的限制。
增加候选者的规模范围和数量会增加潜在的聚合多目标
为了阐明用户定义的 bin 大小和不同 gRNA 组合数量的影响,我们扫描了 线虫 基因组的窗口大小分别为 1 kb 和 200 kb,靶向窗口数量为 3 和 10。正如预期的那样,脱靶数量随着目标窗口大小和目标区域数量的增加而减少(图 1)。 3b). 我们的分析表明,通过不同的 bin 大小并使用多个 gRNA,可以选择多种区域来使用单一 gRNA 进行靶向。
评估目标窗口内 gRNA 的位移
bin 内 gRNA 的分散度取决于命中数,并且随着不匹配数 (0-3) 的增加而增加。 尽管如此,大多数 gRNA 的命中都是独特的,没有不匹配的情况。 这是从全基因组的 sgRNA 错配分析中揭示的 线虫 以及随机选择的 10,000 个 sgRNA H. 怀斯 (如图。 6a 和补充图 5A)。 此外,这些不匹配与箱内的位置无关(补充图 1)。 4)。 此外,单个 gRNA 的分散度与两个样本中的总 gRNA 得分均不相关。 线虫 和 H. 怀斯。 在 线虫 大多数与箱体中间位置标准差较高的 gRNA 显示出较低的总 gRNA 得分(图 1)。 6b). 另外,在 H. 怀斯,标准差与 gRNA 评分无关,但与不同范围的 gRNA 评分相关(补充图 2)。 5b). 这种差异是因为 H. 怀斯 与人类基因组相比,基因组很大并且具有更多的多靶点区域 线虫 基因组。 在这两种情况下,都可以选择大量具有不同标准差且没有脱靶的 gRNA。
评估目标窗口内 gRNA 的位移。 (A)CRISPR-broad被用来扫描具有不同水平错配的潜在gRNA,因为早期的报告表明gRNA的效率受到错配数量的限制。 单个 50 kb 窗口的 gRNA 的错配水平和命中数 线虫 显示。 错配水平设置在 0 到 3 的范围内。即使错配水平为 0,许多可选择的 gRNA 及其相应的目标窗口也可用。(乙) Hexbin 图显示了 gRNA 总分与分散度之间的关系。 标准偏差(分散度)是根据目标窗口内 gRNA 命中的位置计算的。 gRNA 总分的范围从负值到正值。 标准差值越高,目标窗口内 gRNA 的分布就越高。 使用 500 kb 窗口计算标准差和 gRNA 分数 H. 怀斯
扫描多目标 gRNA 和多个目标区域
使用 PyRanges,我们创建了用户定义大小的间隔,这些间隔与包含 Cas9 PAM 模式 (3′-NGG-5′) 的 gRNA 候选者重叠。 由于此步骤的计算量很大,因此我们实现了一些选项来缩小搜索范围,以目标窗口的最小和最大命中数。
区域注释分析 线虫 和 H. 怀斯 多靶点 gRNA 可以靶向的基因组表明,包括基因和基因调控元件在内的广泛特征可供选择。 当结合 gRNA 搜索使用不同 PAM 序列的不同基因组靶向系统时,每个基因组的带注释的可靶向区域的范围可以进一步显着增加(补充图 1)。 6)。
使用 CRISPR-broad 靶向广泛的基因组区域
为了测试 CRISPR-broad,我们采用了之前描述的通过靶向与绿色荧光蛋白 (GFP) 融合的 dCas9 来“绘制”基因组区域的方法。 通过经典 gRNA 设计工具识别的针对端粒或着丝粒周围 100 多个直接重复序列的单一 gRNA 能够在细胞环境中绘制这些功能性染色体元件4,5,6。 使用 CRISPR-broad,我们鉴定了一个靶向人类 19 号染色体 19p13.2 上 317 kb 区域的单一 gRNA,有 86 次命中(图 1)。 7A)。 用表达 dCas9-3XGFP 的质粒和表达所鉴定的 sgRNA 的质粒转染的人 U2OS 在细胞核中显示出两个或 4 个累积的绿色荧光点,与 2n(G1 和 S 期)或 4n(G2 期)一致染色体含量。 相比之下,如前所述4,5,6,在没有特定 gRNA 介导的靶向的情况下,dCas9-3XGFP 在细胞核中显示出核仁背景染色(图 1)。 7b). 结果表明,除了简单而明显的基因组重复元件之外,CRISPR-broad 还可以识别大的基因组区域,以有效靶向 dCas9。
使用 CRIPSR-broad 设计的单一 gRNA 靶向基因组的广泛区域。 (A) 示意图描绘了人类 19 号染色体上的 317 kb 区域,该区域可以被 sgRNA 靶向 86 个位置。 (乙) 转染表达 dCas9-3XGFP 的质粒以及表达针对 (A) 中所示区域的 sgRNA 的质粒的 U2OS 细胞的荧光成像(顶部) 或相应的空向量 (底部)。 细胞核内 GFP 的局部富集用箭头标记。 请注意,由于细胞周期阶段不同,预计会出现两个(2n 染色体含量,G1 期、S 期)或四个(4n 染色体含量,G2 期)标记点。 比例尺代表 20 μm。 有关所呈现的细胞和图像的选择的详细信息可以在补充图1中找到。 8。
目标区域与表观遗传特征的重叠
为了评估 CRISPR-broad 的更广泛应用和潜力,我们比较了在 线虫 和 H. 怀斯 使用单个 Cas9 PAM 进行基因组分析,并使用 ENCODE 和 modENCODE 数据集注释(表观)遗传特征。 我们发现 CRISPR-broad 定义的多靶向窗口与转录因子结合位点(ChIP-seq 峰区域)、组蛋白修饰区域(ChIP-seq 峰)、基因组中带注释的转座元件和 DNA 甲基化位点的特征重叠( WGBS:甲基化 CpG 位点)。 事实上,这些位点中的每一个都可以被多靶点 gRNA 靶向(与 5 kb 的 gRNA 窗口重叠的特征数量/特征总数),这一比例是相当大的(补充图 1)。 7)表明 CRISPR-broad 可用于多种表观基因组编辑策略。
表现
CRISPR-broad 是用 Python 开发的,源代码可在 https://github.com/AlagurajVeluchamy/CRISPR-broad。 CRISPR-broad 在七个独立模块中运行,具有多种用户输入选项(图 1)。 1b). 限制步骤是将 gRNA 映射到基因组并获得所有命中。 我们在 Linux 工作站上测试了该工具的性能,该工作站具有 30-40 个线程,针对 103 Mb 的基因组大小计算(线虫)和 3.2 GB(H. 怀斯) (桌子 1)。 随着基因组大小和允许的错配数量的增加,运行时间也会增加。 gRNA 序列、聚合 gRNA 分数、GC 含量、命中和脱靶命中数、预选大小的最佳命中窗口以及每个命中的坐标均以制表符分隔的文本进行编译和导出 (补充表 2)。
1699801367
2023-11-12 14:31:36
#CRISPRbroad多靶点 #gRNA #的组合设计和广泛多重靶标发现