ギャップレスゲノムアセンブリ時代の 到来

果物の生産は、現在も多くの国で大きな収入源となっています1,2。しかし、多くの植物と同じく、果物の大量栽培は 気候変動とそれに伴う植物に発生する様々な病気と害虫により脅かされています。このようなストレス因子に対する 抵抗力を持つ栽培品種の育種は、十分な生産量を確保するための重要なポイントであり、そのためにはゲノムの全容解 明が必要不可欠です 1 。

1年当たり 670 万ヘクタールの土地で 400 万トンを超えるサクランボ が生産されていることからも分かるように、サクランボは経済的に 重要な果物です。多くの果物と同じように、サクランボも気候変動 や病気に強く、そしておいしくなるような育種がされています。また、 多年草であるため、育種には多大な労力と時間がかかります。 サクランボの選択育種をやりやすく、収量を最大化させるには、 ゲノム情報に基づいた育種ガイドが必要です。しかし、ショート リードシークエンスデータを用いてアセンブリした植物ゲノムは、 主にその反復性の高さから、断片化されて多くのギャップを含むと いう傾向があり3 、Prunus fruticosa のゲノムもその例外ではない ことが明らかにされています。ゲノムアセンブリが不完全な場合、 重要な遺伝情報が欠けている可能性があるため、遺伝情報を曖昧 にしか理解することができません。

'…高品質の完全なドラフトゲノムを 作成するには(ナノポア)技術のみで 十分です1'

Wöhner らは、このような困難を考慮に入れ、Oxford Nanopore 社 の PromethIONTM で作成したロングリードを用いて、P. fruticosa の ドラフトアセンブリを作成しました 1 。Wöhner は、ナノポアシーク エンスが複雑なゲノムの高品質なde novo アセンブリを作成するうえ で独立した技術となり得るものであり、「ポリッシングのために ショートリードデータに頼る」必要がなくなることを強調しています。 同チームは、ナノポアのロングリードのみを用いて、スキャホールド N50 が約 44 Mb で BUSCO スコア(ゲノムの完全性を示す指標)が 98.7% の最終アセンブリ(連続性の高いアセンブリ)を取得しました。 さらに、同チームはわずか 30 倍のカバレッジで 4 倍体(4n)ゲノム の親ハプロタイプの大部分を解析することにまで成功しています。 このアセンブリは、今後の育種戦略を決定するうえで不可欠な リソースとなり、Prunus に関する今後の分子学的および進化学的 研究の基礎となるはずです。

庶民的な果物のバナナは、世界的に最も消費されている果物の 1 つ です 2 。その栽培は、食物の供給だけでなく、多くの経済圏の安定 にも不可欠です 2 。作物の品質と収量を改善するには戦略的な育種 プログラムが必要ですが、その実現の成否はバナナゲノムに関する 包括的な知見にかかっています 2 。多くの作物のゲノムと同じく、 バナナゲノムはリピート配列、構造変異、低複雑度領域が豊富に あることからアセンブリが困難です 1,2。ショートリードに基づく バナナのゲノムアセンブリは、反復配列におけるリードのマッピング 精度が低いため、連続性の低いものとなります2 。

図1 2つのバナナゲノムアセンブリの染色体 サイズの比較から、ナノポアのロングリード とウルトラロングリードの利点が示されて います。最新のアセンブリで黄色の染色体 の長さが増しているのは(Belser et al. 20212 )、ナノポアのロングリードにより正確 に検出したリピート配列が含まれている ためであると考えられます。黄色の染色体 は、セントロメア部位(赤色)をはるかに よく表しており、以前のアセンブリ(白色 の染色体)では欠けていた染色体末端の テロメアを検出することができています (Martin et al. 20164 )。画像の出典: Belser et al. (2021)2 。

Belser らは、この点を踏まえて、ナノポアのロングリードを用いて バナナの栽培種Musa acuminata のゲノムをアセンブリしました。 同チームは、1 枚の PromethION R9.4.1 Flow Cell で全ゲノムシーク エンスを行って 177 倍のゲノムカバレッジを得ており、このうち 75 kb を超えるリードから17 倍のカバレッジを得ています。コンティグ N50 長は以前のショートリードアセンブリにおける平均 42 kb から 32 Mb に増加したほか、何より重要な点としてゲノムアセンブリの サイズが推定ゲノムサイズとほぼ同じになりました。以前のアセンブリ では達成できなかったことです。さらに、ショートリードデータに 基づく過去の研究で報告された rDNA 遺伝子単位がわずか 130 で あったのに対して、今回のアセンブリでは 7,696 の遺伝子単位が 報告されています(図 1)。以上のデータから、ゲノムの複雑な領域 の解析にはこの最新のアセンブリの方が優れており、最終的は 5 つ の染色体をテロメアからテロメアまで網羅するに至ったことが示され ています。

同チームは、別のロングリードシークエンス技術を用いた場合、 「セントロメア反復配列と共に検出されるセントロメア領域が非常に 断片化されており(中略)このような反復性の高い領域の検出には ウルトラロング[ナノポア]リードが重要であることを示す根拠と なっている」ことを確認しており、バナナゲノムの高品質なアセンブリ を作成するにはウルトラロングリードが重要な役割を果たし、バナナ の進化史を読み解いて遺伝研究を推し進める味方となる点を強調 しています 2 。

‘染色体シークエンスを テロメアからテロメアまで ギャップを残さずアセンブリ することが可能になった2’

1. Wöhner, T. et al. Genomics. 113:4173-4183 (2021).

2. Belser, C. et al. Commun Biol. 4(1):1047 (2021).

3. Rousseau-Gueutin, M. et al. GigaScience. 9(12) (2020).

4. Martin, G. et al. BMC Genomics. 17:243 (2016).