バイオとインフォと

バイオとインフォで食べていきたい研究員の技術ブログ

CRISPRで作製した遺伝子ノックアウト株のgenotypingをSanger sequencingで行うための解析ツール

概要

CRISPRによるgene knockout (KO) 株のgenotypingをSanger sequencingで行うためのデータ解析ツールを紹介します。

この記事について

これはkyoto.bioinfoアドベントカレンダーの記事です。京都大好き! adventar.org

目的・動機

CRISPRによる遺伝子KOでは、細胞にgRNA, Cas9などを導入した後、単一細胞に由来するgeneticに均一なクローンを取得します。

各クローンで遺伝子KOが起きているか確認するためにCRISPR切断部位周辺のDNA配列を読む必要がありますが、そのgenotyping作業には若干の困難が伴います。というのも、切断されたDNAの修復時に入るinsertion/deletion (indel) の長さはランダムであり、ラボで使われる培養細胞の多くは2倍体であることから、CRISPR切断部位周辺のgenotypeは大抵ヘテロ (heterozygous) になるからです。

単純にCRISPR切断部位周辺のSanger sequencingを行うと2種類の配列が混ざったような波形が得られます。CRISPR切断部位周辺の染色体コピー数が3以上の場合や細胞がpolyclonalな場合にはより多くの波形が重なります。

MiSeqなどいわゆる次世代シークエンサーを使えばこの問題は解消されるのですが、たかだか数種類 (大抵2種類) の配列をmassively parallelにシークエンシングするのはもったいないです。

そこで、Sanger sequencingの波形を分離することで、KOクローンのgenotypingを行います。この記事では、そのためのツールを紹介します。

既存手法とそのwebツール (CRISP-ID, TIDE, ICE, DECODR等)

上記の問題はCRISPRでの遺伝子ノックアウトを行う研究者全員にとっての問題なので、いくつか解決策が提案されています。

手法 論文 Webツール メモ
TIDE Brinkman et al., 2014 https://tide.nki.nl/
TIDER Brinkman et al., 2018 https://tide.nki.nl/ TIDEの改良版
CRISP-ID Dehairs et al., 2016 http://crispid.gbiomed.kuleuven.be/
ICE Hsiau et al., bioRxiv Synthego
DECODR Bloh et al., 2021 Decodr.org: Analyze gene editing efficiency with Sanger sequencing traces

各手法の詳細についてはここでは割愛します。論文を参照してください。

それぞれwebアプリが用意されており、すぐに試せる状態になっています。例えばTIDEの使い方については以下の記事参照。 togotv.dbcls.jp

Web上へのデータアップロードを避けたい場合

情報管理の観点からweb上へのデータアップロードを避けてローカルで解析したいケースがあると思います。
上記5つの手法のうちICE (Synthego Inference of CRISPR Edits) についてはソースコードが公開されており、ローカルでの解析が可能です。 github.com

ICEのコードはpythonで書かれています。使い方についてはここでは割愛。以下の記事で説明されています。 k-kuro.hatenadiary.jp

ライセンスの都合でICEが使えない状況下、ローカルでKOクローンのgenotypingをする方法を考える。

2023年12月現在、ローカルで使えるCRISPR KO株genotypingツールはICEのみで(違ったら教えてください)、ICEの用途は教育・研究・非営利目的に制限されています。
Mutation Surveyor(使ったことない......)など有料のソフトウェアもあるようですが、その料金を払えない場合は別の方法で何とかせざるをえません。

CRISPR KO株genotypingに特化してはいないものの、オープンソースライセンスの元でSanger sequencingデータを扱えるツールはいくつかあります。それらを使うことで、目的を完全には満たさないまでも、手作業で波形を分離するよりも遥かに快適な環境を用意することができます。

ツール① Tracy

TracyはSanger sequencingの波形データを使ってbasecalling, sequence alignment, variant calling等の処理を行うコマンドラインツールです。BiocondaやDocker Hubで公開されています (License: BSD 3-Clause)。 doi.org github.com

以下のようなコマンドにより、2種類 (3種類以上は不可?) の波形分離ができます。

tracy decompose -r <reference file path (.fasta / .ab1)> -o <output prefix> <input file path (.ab1)>

KO前のサンプルのSanger sequencingデータだけでなくFASTA形式の配列もreferenceとして使えます。Gbase単位の長さのreference配列も扱えるとのことで、ヒトゲノムに対する波形データのalignmentも可能なようです。
-v は波形の分離だけでなくvariant callingを行うためのオプションです。出力形式は変異データのフォーマットとして一般的なBCF (VCFのバイナリ) です。

ツール② sangerseqR / Poly Peak Parser

sangerseqRはSanger sequencingの波形データをRに読み込み、basecalling, sequence alignment, 可視化等の処理を行うR packageです。Bioconductorで公開されています (License: GLP-2)。 https://doi.org/10.1002/dvdy.24183doi.org www.bioconductor.org setAllelePhase という関数により2種類 (3種類以上は不可?) の波形分離ができます。Poly Peak Parkerというwebツールも付属しており使いやすいです。

おわりに

2023年12月時点のCRISPR KO株genotypingツールの情報をまとめました。
ツール選定の基本的な考え方は以下のようになるのではないかと思います。他の選択肢をご存知の方はぜひご連絡ください。

  1. Web上へのデータアップロードに抵抗がなければwebツール (CRISP-ID, TIDE, ICE, DECODR等) を使う
  2. ローカルで解析したければICE (Synthego Inference of CRISPR Edits) を使う
  3. ライセンスの都合でICEを使えない場合はtracyやsangerseqR等のオープンソースソフトウェアを使う

TracyとsangerseqRについてはCRISPR KO株genotyping以外の用途が広く面白そうだったので、後日別記事で紹介しようと思います。

今年もありがとうございました!素敵な年末を! adventar.org

参考にさせていただいた記事

k-kuro.hatenadiary.jp qiita.com geditingsoftware.github.io qiita.com togotv.dbcls.jp