نوع مقاله : مقاله ترویجی
نویسنده
دانشگاه تهران
چکیده
با توپوگرافی پیچیده و متنوع ژنها و توالیهای تنظیمکننده، ژنگان انسان اغلب به یک منظره تشبیه میشود. اما از بسیاری از جهات، ژنگان نه به یک منظرۀ چشمنواز بلکه شبیه به یک بزرگراه بیابانی با وسعت و تکرار زیاد است.
کلیدواژهها
Closing on a complete human genome
Michael Eisenstein
Nature, Vol 590, 25 February 2021
بستن ژنگان کامل انسان
پیشرفت در زمینۀ فناوری توالییابی بهمعنی این است که دانشمندان در آستانه دستیابی به نقشۀ کامل ژنگان انسان هستند.
نازنین عندلیب*
تهران، دانشگاه تهران، پردیس علوم، دانشکده زیست شناسی
چکیده
با توپوگرافی پیچیده و متنوع ژنها و توالیهای تنظیمکننده، ژنگان انسان اغلب به یک منظره تشبیه میشود. اما از بسیاری از جهات، ژنگان نه به یک منظرۀ چشمنواز بلکه شبیه به یک بزرگراه بیابانی با وسعت و تکرار زیاد است.
کلیدواژگان: ژنگان کامل، ژنگان انسان
* مترجم مسئول، پست الکترونیکی: Andalib2727@ut.ac.ir
سانترومر کروموزوم را در نظر بگیرید که دو بازوی پُر از ژنها بههم میپیوندد. سانترومر شامل هزاران توالی
α-Satellite تقریباً یکسان است – واحدهای 171 جفت بازی که بهگونهای سازماندهی شدهاند که از پایداری کروموزومها و تقسیم سلولی مطمئن شود. دو دهه پس از انتشار پیشنویس ژنگان انسان، این ویژگیها و سایر ویژگیهای چالشبرانگیز DNA بهعنوان نقاط ناشناخته در اطلس کروموزومی ما همچنان توالییابی نشده باقیمانده بود. تا همین چندسال پیش، برخی از محققان از یافتن آنها ناامید بودند.
بت سالیوان[1]، محقق سانترومر در دانشگاه دوک[2] در دورهام[3]، کارولینای شمالی[4]، در سال 2014 در گفتگویی با کارن میگا[5]، محقق ژنگان در دانشگاه کالیفرنیا[6]، سانتاکروز[7] چنین نقل میکند:
"اگر اتفاق جدی در فنآوری رخ ندهد، مدت زمان زیادی در این نقطه خواهیم بود". اما آن اتفاق افتاد: و آن توسعه روشهای توالییابی که میتوانند بخشهای طولانی از DNA را بدون وقفه بخوانند، اکنون میگا و همکارانش در انجمن تلومرتاتلومر (T2T)[8]، آمادهاند تا ادیسه 20 ساله را که با انتشار اولین توالی پیشنویس آغاز شد، بهپایان رسانند. هدف آنها تولید نقشه ژنگان برای هر کروموزوم است که توالی آن را از انتها یک تلومر (عناصر با توالی تکراری در دو انتهای کروموزومها) تا تلومر دیگر مشخص شود. میگا میگوید: "انجام اینکار، فقط با هدف انجام دادن آن نبود، بلکه من فکر میکنم یک زیستشناسی بسیار جالب در آنجا وجود دارد". اما برای یافتن آن، باید دنیای ژنگانی را توالییابی کرد، که با بهمعرض گذاشتن کامل این مناطق ژنگانی، که هنوز درک چندانی از آن وجود ندارد.
گیر افتادن در میانۀ کروموزومها
انتشار اولین پیشنویس ژنگان انسان در 20 سال قبل در چنین ماهی (1)، یک موفقیت بزرگ بود. اما نقاط ابهام بسیاری وجود داشت. دانشمندان برنامه ژنگان انسان، تعداد زیادی توالی کوتاه DNA کروموزومی بهدست آوردند که این توالیها با توالیهای همسایه همپوشانی داشته و بهصورت توالیهای بزرگتر Contig ها گردهمآوری شد. در حالت ایدهآل، هر کروموزوم بهصورت یک واحدcontig نمایش داده میشود، اما اولین پیشنویس شامل 1246 قطعه بود.
از آن زمان بهبعد، دانشمندانی که بهعنوان بخشی از انجمن مرجع ژنگان[9] کار میکنند، اجتماعی تشکیل دادند که در این اجتماع بر گردهمآوری و بررسی [توالیها] پرداخته و قطعات اشتباه و با اطلاعات ناکافی را با استفاده از تجزیه و تحلیل توالیها شناسایی کردند. جدیدترین نسخه از ژنگان انسان در سال 2013 به نام GRCh38 منتشر شد و از آن به بعد بهصورت مکرر قسمتهایی بهآن اضافهشدهاست. اما هنوز 10-5% از ژنگان که شامل سانترومرها، مجموعه بزرگی از ژنهای رمزگذار توالیهای RNA که پروتئینهای اندامکها را تولید میکنند و در ریبوزومها وجود دارند ناشناخته باقیمانده است.
این مجموعه در نسخههای طولانی و تکراری ژنها وجود دارند. آدم فیلیپی[10] که در زمینه بیوانفورماتیک در مؤسسه تحقیقاتی ملی ژنگان انسان در بتسدا[11]، مریلند[12] در آمریکا بهصورت مشترک با انجمن T2T کار میکند، میگوید: "هنوز هم بخش بزرگی از شکافها بسته نشدهاست و از طرفی طراحی نقشه ژنگان بهدلیل حضور مکرر قطعاتDNA تقریباً یکسانی که قطعات تکراری نامیده میشوند و محصول نوآراییهای قدیمی کروموزومی است بهسختی انجام میشود".
این بخشهای چالشبرانگیز تلاش در جهت گردهماوری ژنگان را دچار اشکال میکند. به همین دلیل اکثر توالییابیها با روشهای خوانش کوتاه انجام شد. [یکی از این روشها] برنامهای است که توسط شرکت زیستفنآوری ایلومینا[13] در سان دیگو[14]، کالیفرنیا تجاریسازی شد.
کروموزوم های انسانی تصویربرداری شده با میکروسکوپ الکترونی
در توالییابی بهروش ایلومینا دادههای دقیقی بهدست میآید، اما بهطور معمول [در این روش] فقط میتوان توالی چندصد باز را همزمان میتوان خواند و در نتیجه برای توالیهای طولانی و توالیهای مبهم مناسب نیست.کریستن هاو[15] که در زمینه زیستشناسی محاسباتی در مؤسسه ولکام سانگر[16] در هینکستون[17] انگلستان کار میکند، همچنین یکی از افراد انجمنGRC، میگوید: "گردهماوری ژنها معمولاً آسان است، اما هرچیز دیگری که در فضای بین ژنها قرار دارد و دارای تکرار زیاد باشد قابل گردهماوری نیست".
پُر کردن شکافها
با دو روش خوانش طولانی میتوان به از بین رفتن این شکافها نزدیک شد. شرکت زیستفناوری پسفیک بیوساینس[18] در ملوپارک[19]کالیفرنیا از یک سیستم جالبی استفاده کرد. در این سیستم صدهاهزار و یا حتی میلیونها رشتهی DNA موازی و هزارها باز بهصورت مستقیم خوانش میشود. در روش دیگر که توسط شرکت انگلیسی اکسفورد نانوپور تکنولوژی[20] تجاری شد، در این روش رشتههای نخمانند DNA از میان پروتئینهایی با منافذ کوچک و یا در حد نانو عبور داده، خوانش دهها تا صدهاهزار باز بهوسیله اندازهگیری تغییرات نامحسوس جریان الکتریکی نوکلئوتیدهای عبور کرده از میان کانال پروتئینی انجام میشود.
وقتیکه روش پسفیک بیوساینس در سال 2010 و روش اکسفورد نانوپور در سال 2014 برای اولین بار ارائه شدند، نسبت به روش ایلومینا که برای هرخوانش دقتی بیش از 99% داشت، دارای خطا بودند. بهطوریکه فیلیپی میگوید: "نسبت خطا در روش خوانش پسفیک بیوساینس 20-15 درصد است".
توالییابهای نانوحفرهای نسل اول، در خوانش بازها خطای بیشتر از 30% نشان دادند. اما عملکرد آنها بهطور پیوسته پیشرفت کرد و بهوسیله این روشها میتوان رشتههایی با طول بیشتر خوانده شود. فیلیپی میگوید: "3 یا 4 سال گذشت و اکنون میتوانیم طولهایی بیشتر از 100 کیلوباز را بخوانیم و این زمانی بود که من و کارن انجمن T2T را راهاندازی کرده بودیم".
این انجمن در اوایل سال 2019 تأسیس شد و هدف آن تولید کیفیت بالا و گردهماوری انتها تا انتهای هر کروموزوم انسانی بود. بیشتر از 100 متخصص توالییابی و ژنگانی از سراسر جهان ثبتنام کردند که بسیاری از این افراد کسانی بودند که قبلاً بهصورت فعال در تجزیه و تحلیل خواندن بازها شرکت داشتند.
دو مقاله در مورد کار آنها در سال 2018 منتشر شد. در یکی (2) از مقالات متولوز[21]، زیستشناس محاسباتی در دانشگاه ناتینگهام[22] انگلستان و همکاران اولین گردهمآوری کامل ژنگان انسانی را با استفاده از دادههای روش اکسفورد نانوپور توصیف کردند. از دادههای بهدست آمدهی قبلی با خوانش طولانی روش ایلومینا برای اصلاح خطای خروجی دادههای روش نانوپور استفاده شد. اما لوز و همکاران حدود 90% برنامه GRCh38 را با دقت 8/99% فقط با استفاده از دادههای روش نانوپور پوشش دادند و این در حالیبود که دهها شکاف بزرگ در ژنگان مرجع وجود داشت.
در دومین مطالعه (3)، مگان و گروه تحقیقاتی آن، سانترومر کروموزوم Y انسان را که کوچکترین کروموزوم است دوباره گردهماوری کردند. آنها با توافق با یکدیگر توالی با کیفیت بالا را بهوسیلهی تعداد زیادی خوانش طولانی در سراسر ناحیه ایجاد و بهراحتی خطاهای تصادفی را شناسایی و حذف کردند. میگا میگوید: "در واقع ما میتوانیم از تمام طول سانترومر عبور کنیم"، اما در آن جا مرحله هنوز کار خیلی سختی است- فقط به الگوها نگاه و آنها را بههم وصل میکنیم".
اول تکمیل کار
چنین موقعیتهایی نشان داد که هدف T2T دستیافتنی است. برای سادهتر شدن کار، برروی ردهی سلولیCHM13 مشتق از تومور، با ژنگانی شامل دو مجموعۀ کروموزومی یکسان، تمرکز شد. و بهاین ترتیب پیچیدگی ژنگان دیپلوئیدی شامل ژنگانهای متمایز والدی از بین رفت.
در اواخر سال 2020 اولین مجموعه کامل گردهماوری کروموزومهای X (4) و 8 (بهعنوان پیشچاپ) (5) منتشر شدند. برای توالییابی قطعات دو کروموزوم که طول آنها بیش از 70000 باز است، محققان روش اکسفورد نانوپور را که در هر خوانش بیش از یک میلیون باز را انجام میدهد بهکارگرفتند.
فیلیپی میگوید: "با استفاده از این روشها، امّا با دقت کمتر، ما قادر به نمایش ستون فقرۀ اصلی کروموزومها از تلومر تا تلومر بودیم." سپس دانشمندان انجمن T2T دادههای خوانش با روشهای ایلیومینا[23] و پسفیک بیوساینس[24] را برای کامل کردن گردهمآوری استفاده کردند. گلینس لوگسدون[25]، دانشجوی پسا دکتری دانشگاه واشینگتن[26] در سیاتل[27] و اولین نویسنده مقاله در مورد کروموزوم 8 میگوید که روشهای متفاوت توالییابی، تناقضهای روشنی دارند. برای مثال، دانشمندان T2Tپیبردهاند که با روشهای شیمیایی پسفیک بیوساینس میتوان مناطق غنی از بازهای گوانین ژنگان را بررسی کنند، در حالیکه در روش نانوپور بعضی اوقات در تکرارهای طولانی از این نوکلئوتیدها خطا ایجاد میشود. لوگسدون میگوید: "اگر یک مجموعه از داده دارای نقصی باشد که با دادههای مجموعه دیگر این نقص جبران شود، پس این دو روش بهخوبی مکمل یکدیگر هستند".
تکمیل و بررسی نتایج به ابزارهای ویژه و توسعه یافته توسط محققان، از جمله فیلیپی و زیستشناس محاسباتی پاول پوزنر[28] در دانشگاه کالیفرنیا، ساندیگو نیاز دارد. این تیم عملکرد محتاطانه داشت. فیلیپی میگوید: "ما فقط قصد داشتیم که دو توالی با طول 7000 باز و 100% یکسان را بههم بهچسبانیم. بهمحض ورود خطا به مجموعه، رفع آن بسیار دشوار است". اما با احتیاطهای لازم، امکان تولید مجموعههایی با دقت 99/99% در سطح نوکلئوتید امکانپذیر شد.
کار اولیه کروموزوم X (4)، از مطالعات پیشین سانترومر این کروموزوم که در سطح ساختاری بهخوبی انجام شد، استفادهکردند. سالیوان[29] میگوید: "ما روشهای مولکولی متعددی بهکار بردیم تا اطمینان حاصل شود که اندازهی آرایههایα-satellite گردهمآوری شده با اطلاعات توالییابی منطبق است. در مجموع، من با توجه به نتایج اعتبارسنجی انجام شده از مطالعه اول تحت تأثیر قرار گرفتم".
محققان همچنین با روشهای نقشهبرداری، مانند روشی که توسط شرکت زیستفنآوری بیونانوژنومیک[30] در ساندیگو کالیفرنیا ساختهشده، امکان اندازهگیری توالیهای فاصلهگذارDNA کروموزومی را فراهمآوردند.
تکمیل نشدن در راه است
با وجود موقعیتهای بهدست آمده، پیشنهاد انجمن T2T برای کروموزوم 8 و X کاری دشوار و سخت بود. اما پیشرفتها در این مدت تلاشهای اعضای تیم را بینتیجه نگذاشت.
ابزارهای پسفیک بیوساینس فرآیندی موسوم به توالییابی مشترک حلقوی[31] را پشتیبانی کرده و در آن هر رشته ازDNA به حلقههای بستهای تبدیل میشود که بارها و بارها قابل خوانش هستند. با مقایسه این خوانشهای مکرر، محققان میتوانند خطاهای تصادفی را حذف کرده و در نتیجه نتایجی با دقت بسیار حاصل شود.
نسخههای اولیه CCS برپایه چند هزار باز بنا نهاده شد و بههمین دلیل استفاده از این روش در گردهمآوری ژنگان محدود شد. اما در سال 2019، این شرکت روند جدیدی اتخاذ کرد (6) که در آن نتایج دقیقی تولید شد؛ در حال حاضر خوانشهایی با بیش از 20000 باز و با دقت بیشاز %99 انجام میشود. پوزنر میگوید: "اکنون ما میتوانیم اغلب سانترومرها را مطابق با خوانش درست گردهمآوری کرده و به هیچ کمک دیگری نیاز نیست". همچنین او اضافه میکند که الگوریتمهای تنظیمشدهی خوبی مورد نیاز است که با چنین دادههایی کارکنند.
پوزنر بازسازی سانترومر را با درست کردن یک پازل آسمان آبی روشن مقایسه میکند که در آن تمام قطعات در ابتدا غیرقابل تشخیص هستند. او میگوید: "ابرهای نامرئی کمی درآنجا وجود دارند که میتواند قطعات مختلف پازل را از هم متمایز کند". یافتن این ابرها، ساختار پازل را نشان میدهد و از همین رویکرد برای گردهمآوری سانترومرها استفاده شد، تشخیص تفاوت نامحسوس توالی میتواند منجربه گردهمآوردن یک الگوریتم برجسته شود.
مجموعۀ این رویکردها با خوانش طولانی نانوپور بهطور مشخص سبب سرعت بخشیدن برنامه T2T شد. لوگسدون گزارش میدهد که خوانش طول صدهزار باز یک کار عادی است. فیلیپی میگوید: "انجام هریک از برنامههای کروموزومX و 8 یک سال بیشتر طول کشید. اما بعدازآن توانستیم تمام کروموزومهای باقیمانده را در مدتزمان دو ماه بهپایان برسانیم. اکنون پایان روشنی دیده میشود". مگا میگوید: "ما آرایش سانترومری تمام کروموزومها بهغیر از کروموزوم 9 را بهدستآوردیم". او میگوید، سانترومر این کروموزوم حجیم بوده و از 27 میلیون باز تشکیل شده و یک چالش مهم در مورد این سانترومرایجادشدهاست. همچنین این گروه در حال کامل کردن ژنهای تکراریRNA ریبوزومی هستند. اما انجمن در حال حاضر اطلاعات خود را در GitHub بهاشتراک میگذارد، میگا پیشبینی میکند که انتشار کامل ژنگان رده سلولیCHM13 امسال تمام میشود.
در حال حاضر نتایج خوبی از دادهها بهدستآمده است. لوگسدون و دیگران برای تعیین الگوهای اصلاح شیمیایی DNA که برعملکرد کروموزومی تأثیر میگذارد، توالییابی نانوپور را بهکاربردند. میگا میگوید: "اکثر سانترومرها متیله هستند اما این متیلاسیون بهصورت یک شیب در تمام سانترومر دیده میشود". این شیب متیلاسیون بهنظر میرسد که محل کینهتکور[32] را نشان میدهد. کینهتکور یک ساختار مهم سانترومری است که در تقسیم DNA در طول تقسیم سلولی نقش دارد. لوگسدون امیدوار است که با استفاده از این یافتهها سانترومرها کمینهای را برای کروموزومهای ساختگی مهندسی کند.
انجمن T2T کار نسبتاً کوچکی در نظمدهی ژنهای گسترده و پیچیدۀ رمزگذار ناحیۀ متغیر آنتیبادیها و گیرندههای سطح سلولهای ایمنی T انجام دادند. پوزنر میگوید: "این مناطق بسیار تکرارشونده بود و گردهمآوری آنها بسیار دشوار است. از امروز، ما فقط دو مرجع برای این مناطق داریم". توانایی دستیابی و مشخص کردن این مناطق ژنگانی چالشبرانگیز میتواند منجربه درک پاسخ ایمنی به عفونتها و واکسنها شود.
پایان یک آغاز
همانطوریکه ساخت ژنگان یک چالش بود، یک واحد سراسری از ژنگان برای محقق، بدون در نظرگرفتن ژنگان افراد مختلف و مقایسه آنها، ارزش محدودی دارد. برای افزایش کارآرایی، در اواخر سال 2020، انجمن T2T کاری نزدیک و موازی با انجمن مرجع تمام ژنوم انسانی[33] آغاز کردند. در سال 2019، HRPC با هدف جایگزینی GRCh38 با ژنگان مرجع برای بهدستآوردن دامنه تنوع انسانی بیشتر، براساس کل دادههای ژنگان با حداقل 350 نفر راهاندازی شد. توبیاس مارشال[34] زیستشناس محاسباتی و یکی از اعضای انفورماتیک در مؤسسه ماکس پلانک[35] ساربروکن[36] آلمان میگوید: "با عادیتر شدن پزشکی ژنگانی، سوگیریهای مربوط به اصل و نسب افراد کنار گذاشته میشوند.
یوتاسوزوکی[37] یک همکار تحقیقاتی در آزمایشگاه، زیستشناس محاسباتی شینیچیموریشیت[38] در دانشگاه توکیو[39]، از توالییابی پسفیک بیوساینس برای بررسی سانترومر 36 نفر افراد ژاپنی و سایر مناطق جهان استفاده کردهاست (7). سوزوکی میگوید: "فقط در جمعیت ژاپنی، تقریباً در هر نمونهای که بررسی کردیم، سانترومرهای مختلفی را میبینیم. فقط یک مرجع و یا حتی فقط یک مرجع برای جمعیت کافی نیست".
موریشیتا در پی بررسی صدها سانترومر انسانی است و خاطر نشان میسازد که دهها همراهی بیماریهای مرتبط با تغییرات ژنگانی در این مناطق وجود دارد. او میگوید: "اشتباه در تکرارهای سانترومری، سبب از بینرفتن تغییر ساختاری آنها میشود که این تغییرات ساختاری میتواند پایداری و ثبات آنها را تحتتأثیر قرار دهد. دراینمورد، فیلیپی فرصتی برای درک بهتر اصلاح ژنهای RNA ریبوزومی در بیماریهای مرتبط با ماشین تولید پروتئین سلولی بهدستآورد.
امّا ابتدا، محققان باید نحوۀ به کارگیری فرآیند T2T را در ژنگان دیپلوئیدی بررسی کنند. تعیین اینکه کدام توالی در کدام نسخه از کروموزومها وجود دارد، مستلزم آن است که توالیهای دانشمندان و منحصربهفرد کافی را در طول ژنگان شناسایی کنند تا گردهمآوری صحیح قطعات پیوسته به هم (contings) را هر رشته DNA در نواحی اَبَرتکراری مانند سانترومرها فراهم سازند. لوگسدون، ایشلر[40] و همکاران در پیشچاپ نتایج کروموزوم 8، امکان بازسازی مناطق سانترومری شامپانزهها و انسان را، در شرایط بسیار متمایز کروموزومها از نظر ژنگان، توصیف میکنند. موریشیتا میگوید: "برای طی تمام مسیر توالی ناحیۀ سانترومری ژنگانهای دیپلوئید، بهخوانشهای طولانی و بسیار دقیقتری نیاز داریم".
در حال حاضر، بیشتر تلاشهای ژنگانی بالینی بر روی ژنهای شناختهشده متمرکز است تا بتوان یک رویکرد سریع و مقرون بهصرفه برای تجزیه و تحلیل ژنگان بهدستآورد. اما پیشگامان این زمینۀ جدید ژنگان پزشکی، انتظار دارند که تجزیه و تحلیلهای جامع درنهایت بهیک استاندارد تبدیل شود، اگرچه احتمالاً، با توجه به گوناگونیهای این نواحی گریزان از نقشهیابی صحیح در اثرات بالینی، هزینه زیادی متحمل خواهند شد. میگا میگوید: "اگر فرزندم بیمار شود و میدانستم که میتوانم 100% ژنگان را با خوانش طولانی بهدستآورم، حاضر به پرداخت این تفاوت میبودم".
[1] -Bet Sullivan
[2] - Duke
[3] -Durham
[4] -North Carolina
[5] -Karen Miga
[6] -California
[7] -Santa Cruz
[8] - Telomere to Telomere
[9] -Genome Reference Consortium (GRC)
[10] -Adam Phillippy
[11] -Bethesda
[12] -Meryland
[13] -Illumina
[14] -San Diego
[15] -Kerstin Howe
[16] -Wellcome Sanger
[17] -Hinxton
[18] -Pacific BioScience
[19] - MeloPark
[20] -Oxford Nanopore technology
[21] -Mathew Loose
[22] -Nattingham
[23] Illumina
[24] Pasific Biosiences
[25] -Glennis Logsdon
[26] -Washington
[27] -Seattle
[28] -Pavel Pevzner
[29] -Sullivan
[30] -Bionano Genomics
[31] -Circular Consensus Sequencing (CCS)
[32] -Kinetochore
[33] -Human Pangenome Reference Consortium (HRPC)
[34] - Tobias Marschall
[35] - Max planck
[36] - Saarbruken
[37] - Yuta Suzuki
[38] - Shinichi Morishita
[39] - Tokyo
[40] - Eichler