У Еньхуей, Цяо Лян*
Факультет хімії, Фуданський університет, Шанхай 200433, Китай
Мікроорганізми тісно пов'язані із захворюваннями та здоров'ям людини. Як зрозуміти склад мікробних спільнот та їхні функції є головним питанням, яке потребує термінового вивчення. В останні роки метапротеоміка стала важливим технічним засобом для вивчення складу і функцій мікроорганізмів. Однак через складність і високу гетерогенність зразків мікробної спільноти обробка зразків, збір даних мас-спектрометрії та аналіз даних стали трьома основними проблемами, з якими зараз стикається метапротеоміка. У метапротеомному аналізі часто необхідно оптимізувати попередню обробку різних типів зразків і прийняти різні схеми мікробного розділення, збагачення, екстракції та лізису. Подібно до протеома одного виду, режими збору даних мас-спектрометрії в метапротеоміці включають режим збору, що залежить від даних (DDA) і режим збору, незалежного від даних (DIA). Режим збору даних DIA може повністю зібрати пептидну інформацію зразка та має великий потенціал для розвитку. Однак через складність зразків метапротеомів аналіз даних DIA став основною проблемою, яка перешкоджає глибокому висвітленню метапротеоміки. З точки зору аналізу даних, найважливішим кроком є створення бази даних послідовностей білків. Розмір і повнота бази даних не тільки мають великий вплив на кількість ідентифікацій, але також впливають на аналіз на видовому та функціональному рівнях. В даний час золотим стандартом для побудови бази даних метапротеомів є база даних послідовностей білків на основі метагенома. Водночас доведено, що метод фільтрації загальнодоступної бази даних, заснований на ітераційному пошуку, має велику практичну цінність. З точки зору конкретних стратегій аналізу даних, пептид-центровані методи аналізу даних DIA зайняли абсолютний мейнстрім. З розвитком глибокого навчання та штучного інтелекту це значно підвищить точність, охоплення та швидкість аналізу макропротеомних даних. З точки зору подальшого аналізу біоінформатики, в останні роки було розроблено серію інструментів анотації, які можуть виконувати анотацію видів на рівні білка, пептиду та гена, щоб отримати склад мікробних спільнот. Порівняно з іншими методами оміки, функціональний аналіз мікробних спільнот є унікальною особливістю макропротеоміки. Макропротеоміка стала важливою частиною мультиомічного аналізу мікробних спільнот і все ще має великий потенціал розвитку з точки зору глибини охоплення, чутливості виявлення та повноти аналізу даних.
01 Попередня обробка зразка
В даний час технологія метапротеоміки широко використовується в дослідженнях людського мікробіому, ґрунту, їжі, океану, активного мулу та інших областях. Порівняно з аналізом протеомів одного виду, попередня обробка метапротеомів складних зразків стикається з більшими проблемами. Мікробний склад у фактичних зразках є складним, динамічний діапазон чисельності великий, структура клітинної стінки різних типів мікроорганізмів дуже різна, і зразки часто містять велику кількість білків господаря та інших домішок. Тому при аналізі метапротеома часто необхідно оптимізувати різні типи зразків і прийняти різні схеми мікробного розділення, збагачення, екстракції та лізису.
Екстракція мікробних метапротеомів з різних зразків має певну подібність, а також деякі відмінності, але наразі бракує уніфікованого процесу попередньої обробки для різних типів зразків метапротеомів.
02Збір даних мас-спектрометрії
У дробовику протеомного аналізу суміш пептидів після попередньої обробки спочатку відокремлюється в хроматографічній колонці, а потім надходить у мас-спектрометр для збору даних після іонізації. Подібно до аналізу протеомів одного виду, режими збору даних мас-спектрометрії в аналізі макропротеомів включають режим DDA та режим DIA.
Завдяки безперервній ітерації та оновленню інструментів мас-спектрометрії до метапротеому застосовуються прилади мас-спектрометрії з вищою чутливістю та роздільною здатністю, а також постійно вдосконалюється глибина охоплення аналізу метапротеома. Протягом тривалого часу серія мас-спектрометричних інструментів високої роздільної здатності на чолі з Orbitrap широко використовувалася в метапротеоме.
Таблиця 1 оригінального тексту показує деякі репрезентативні дослідження метапротеоміки з 2011 року до теперішнього часу з точки зору типу зразка, стратегії аналізу, приладу мас-спектрометрії, методу збору даних, програмного забезпечення для аналізу та кількості ідентифікацій.
03Аналіз даних мас-спектрометрії
3.1 Стратегія аналізу даних DDA
3.1.1 Пошук у базі даних
3.1.2de novoстратегія послідовності
3.2 Стратегія аналізу даних DIA
04Видова класифікація та функціональна анотація
Склад мікробних угруповань на різних таксономічних рівнях є одним із ключових напрямків дослідження мікробіомів. В останні роки було розроблено низку інструментів анотації для анотації видів на рівні білків, пептидів і генів для отримання складу мікробних спільнот.
Суть функціональної анотації полягає в порівнянні послідовності цільового білка з базою даних функціональних послідовностей білка. Використовуючи бази даних функцій генів, такі як GO, COG, KEGG, eggNOG тощо, можна виконувати різні аналізи функціональних анотацій білків, ідентифікованих макропротеомами. Інструменти анотації включають Blast2GO, DAVID, KOBAS тощо.
05 Підсумок і прогноз
Мікроорганізми відіграють важливу роль у здоров’ї та захворюваннях людини. В останні роки метапротеоміка стала важливим технічним засобом вивчення функції мікробних спільнот. Аналітичний процес метапротеоміки подібний до процесу одновидової протеоміки, але через складність об’єкта дослідження метапротеоміки на кожному етапі аналізу необхідно застосовувати конкретні стратегії дослідження, від попередньої обробки зразка, збору даних до аналізу даних. В даний час завдяки вдосконаленню методів попередньої обробки, безперервним інноваціям технології мас-спектрометрії та швидкому розвитку біоінформатики метапротеоміка досягла значного прогресу в глибині ідентифікації та сфері застосування.
У процесі попередньої обробки зразків макропротеомів спочатку слід враховувати природу зразка. Як відокремити мікроорганізми від клітин навколишнього середовища та білків є однією з ключових проблем, що стоять перед макропротеомами, а баланс між ефективністю відділення та втратою мікробів є терміновою проблемою, яку потрібно вирішити. По-друге, екстракція білка мікроорганізмів повинна враховувати відмінності, викликані структурною неоднорідністю різних бактерій. Зразки макропротеомів у слідовому діапазоні також вимагають спеціальних методів попередньої обробки.
Що стосується мас-спектрометричних приладів, основні мас-спектрометричні прилади зазнали переходу від мас-спектрометрів на основі мас-аналізаторів Orbitrap, таких як LTQ-Orbitrap і Q Exactive, до мас-спектрометрів на основі часопролітних мас-аналізаторів, пов’язаних із рухливістю іонів, таких як timsTOF Pro . Прилади серії timsTOF з інформацією про розмір рухливості іонів мають високу точність виявлення, низьку межу виявлення та хорошу повторюваність. Вони поступово стали важливими інструментами в різноманітних галузях досліджень, які вимагають мас-спектрометричного виявлення, наприклад, протеома, метапротеома та метаболома одного виду. Варто зазначити, що протягом тривалого часу динамічний діапазон приладів мас-спектрометрії обмежував глибину білкового покриття дослідження метапротеомів. У майбутньому інструменти мас-спектрометрії з більшим динамічним діапазоном зможуть підвищити чутливість і точність ідентифікації білка в метапротеомах.
Для збору даних мас-спектрометрії, хоча режим збору даних DIA був широко прийнятий у протеомі одного виду, більшість сучасних аналізів макропротеомів все ще використовують режим збору даних DDA. Режим збору даних DIA може повністю отримати інформацію про фрагменти іонів зразка, і порівняно з режимом збору даних DDA він має потенціал для повного отримання інформації про пептиди зразка макропротеома. Однак через високу складність даних DIA аналіз даних макропротеомів DIA все ще стикається з великими труднощами. Очікується, що розвиток штучного інтелекту та глибокого навчання підвищить точність і повноту аналізу даних DIA.
В аналізі даних метапротеоміки одним із ключових кроків є створення бази даних послідовностей білків. Для популярних областей досліджень, таких як кишкова флора, можна використовувати бази даних кишкових мікробів, такі як IGC і HMP, і було досягнуто хороших результатів ідентифікації. Для більшості інших аналізів метапротеоміки найефективнішою стратегією побудови бази даних все ще є створення бази даних про послідовності білка, що базується на даних метагеномного секвенування. Для зразків мікробної спільноти з високою складністю та великим динамічним діапазоном необхідно збільшити глибину секвенування, щоб збільшити ідентифікацію видів з низькою чисельністю, тим самим покращуючи охоплення бази даних послідовностей білків. Якщо даних секвенування бракує, для оптимізації публічної бази даних можна використати ітеративний метод пошуку. Однак ітеративний пошук може вплинути на контроль якості FDR, тому результати пошуку потрібно ретельно перевіряти. Крім того, все ще варто вивчити застосовність традиційних моделей контролю якості FDR в метапротеомному аналізі. З точки зору стратегії пошуку, стратегія гібридної спектральної бібліотеки може покращити глибину охоплення метапротеоміки DIA. Останніми роками прогнозована спектральна бібліотека, створена на основі глибокого навчання, продемонструвала чудову ефективність у протеоміці DIA. Проте бази даних метапротеомів часто містять мільйони білкових записів, що призводить до великого масштабу передбачених спектральних бібліотек, споживає багато обчислювальних ресурсів і призводить до великого простору пошуку. Крім того, подібність між білковими послідовностями в метапротеомах сильно відрізняється, що ускладнює забезпечення точності моделі прогнозування спектральної бібліотеки, тому передбачені спектральні бібліотеки не знайшли широкого використання в метапротеоміці. Крім того, необхідно розробити нові стратегії визначення білка та анотації класифікації для застосування до метапротеомного аналізу протеїнів, схожих на послідовність.
Підводячи підсумок, як нова технологія дослідження мікробіомів, технологія метапротеоміки досягла значних результатів досліджень, а також має величезний потенціал розвитку.
Час публікації: 30 серпня 2024 р