BigLib.info

Джерела інформації про білки

Загальна організація баз даних.
Первинні бази даних.
Композитні бази даних білкових сіквенсів.
Композитні бази даних структури білків.
1. Загальна організація баз даних
В цій лекції ми ознайомимось з багатьма базами даних, різницею між ними, принципами їх організації. І яким чином вони функціонують і підтримуються. Будуть обговорені бази даних – первинні, вторинні і третинні.
Сіквенування геномів технічно досить просто, відносно дешеве і мало трудоємне. На відміну від цього, сіквенування білків, а тим більше встановлення вторинної, третинної і четвертинної структури значно складніше. Визначення тримірної (3D – 3-dimentional) структури білків досить повільний і складний процес. У зв’язку зі складністю 3D-структури білків систематизація і використання даної інформації також непросте завдання.
Перший крок – депонування інформації про сіквенси в центральних базах у формі, доступній для широкого використання. Ця інформація зберігається в електронній формі. За природою інформації існує багато баз даних (сіквенси, первинна чи вторинна структури). Вони можуть бути і у формі flat-files (прості файли), relational databases – у формі таблиць, чи object-oriented – за об’єктами. Тут ми, в основному, будемо акцентувати увагу в першу чергу на різних типах баз даних, а не на певних типах зберігання чи механізмах оперування.
В контексті аналізу сіквенсу білків будемо мати справу з наступними базами даних: первинні, складні і вторинні. Ресурси про організацію білків на різних рівнях зберігаються у абсолютно різних форматах. Новітні комп’ютерні технології забезпечують відносно нескладні, орієнтовані на користувача прозорий доступ до баз даних через Internet.
Первинні і вторинні бази даних використовуються для роботи з даними по сіквенсу і просторовій організації білків. Тому необхідно знати коли і як використовувати їх для побудови ефективної системи аналізу.
У первинній базі даних первинна структура білка зберігається в формі послідовності амінокислотних залишків.
У вторинній базі даних зберігається інформація про локальну організацію (б-спіралі, в-складки). Часто це висококонсервативні мотиви. Дані щодо вторинної структури білків подаються як регулярні (систематичні) вислови, відбитки пальців, блоки, профілі, тощо.
Інформація про третинну структуру білків зберігається в структурних базах даних у формі наборів атомних координат. Третинна структура виникає

Рис. 4.1. Рівні білкових послідовностей і їх структурної організації.
внаслідок просторової організації елементів структурної організації вторинної структури і невпорядкованих фрагментів. В них формуються дискретні домени складок (а, b, с), або автономні одиниці укладки чи модулі (@, *, #), чи й повна укладка.
2. Первинні бази даних
Первинні бази даних почали формуватись на початку 1980-х років на базі кількох лабораторій, де було усвідомлено, що існує потреба у централізованому збиранні і зберіганні інформації про сіквенси білків. У різних частинах світу були створені проекти кількох первинних баз даних. Деякі з цих баз приведені в табл. 4.1.
Табл. 4.1 Бази даних по первинній структурі нуклеїнових кислот і білків
Нуклеїнові кислоти | Білки
Gen Bank
EMBL
DDBJ | PIR
MIPS
SWISS-PRO
Tr EMВL
NRL-3D
Головними базами даних щодо сіквенсу нуклеїнових кислот є Gen Bank (США), EMBL (European Mob Dial Laboratory, Європа) і DDBJ (Японія). Вони щоденно обмінюються інформацією для кращого виконання покладених на них функцій. Тут ми не зупиняємось на базах даних, де зберігається інформація по нуклеїнових кислотах, і сконцентруємось на базах даних по білках.
PІR – Protein Information Resource
Ця база бере свій початок на початку 1960-х років. Вона була розроблена Margaret Day Hoff (як Protein Sequence Database (PSD)) у Національному фонді біомедичних досліджень –National Biomedical Reserch Foundation (NBRF). Первинно це була колекція сіквенсів для дослідження еволюційних взаємозв’язків між білками. З 1988 року PSD підтримувалась PІR-International – асоціацією центрів колекцій даних по сіквенсу макромолекул. Сюди входять PІR при NBRF, міжнародною японською базою даних пo інформації про білки Японії (International Protein Information Database of Japan) і Мартінсрідський інститут для білкових сіквенсів (Martinsried Institute for Protein Sequence - MIPS).
У сучасній формі ця база даних розділена на 4 секції, які позначені як PІR1-PІR4. PІR1 містить повністю класифіковані і анотовані статті. PІR2 включає первинні статті, які ще повністю не проаналізовані і можуть містити надлишок інформації. PІR3 містить неперевірені статті, які ще не були проаналізовані. До PІR4 віднесені чотири категорії: 1) концептуальний переклад автофактних сіквенсів; 2) концептуальний переклад послідовностей, які не транскрибуються або не транслюються; 3) білкові сіквенси чи концептуальні переклади, які екстенсивно генетично сконструйовані; 4) сіквенси, які генетично не кодуються і не продукуються на рибосомах. Розроблені програми для доступу до даних і пошуку сіквенсів через Internet у web-сайті NBRF- PІR FD.
MІPS
The Martinsried Institute for Protein Sequences збирає і обробляє дані сіквенсів для PІR International Protein Sequence Project. Дані розповсюджуються PATCHX, забезпечені неперевіреними білковими сіквенсами з зовнішніх джерел. Доступ до баз даних забезпечується через web-сервер. Результати FastA-пошуку подібностей всіх білків у PІR-International і PATCHX зберігаються у базі даних, яка динамічно підтримується. Це дозволяє швидкий доступ до результатів FastA-аналізу.
SWISS-PROT
Вона почала функціонувати у 1986 р. ЇЇ спочатку розробляли сумісно дослідники департаменту медичної біохімії Женевського університету і ЄМБЛ. Після 1994 р. співпраця перейшла до Великобританської ЄМБЛ –EBІ. З квітня 1998 р. вона підтримувалася Швейцарським інститутом біоінформатики (Swiss Institute of Bioinformaties; SІB, а зараз сумісно SІB і EBІ/EMBL). База даних забезпечує анотації високого рівня, які виключають описи функції білків, структуру їх доменів, пострансляційні модифікації, варіанти тощо. SWISS-PROT має метою мінімальну неоднозначність і зв’язана з багатьма іншими ресурсами. У 1996 р. було створено анотоване комп’ютерне забезпечення, назване Tr EMBL. Зараз ми детальніше подивимось на статті SWISS-PROT.
Структура статей SWISS-PROT
Структура баз даних, якість її анотацій роблять SWISS-PROT кращою від інших білкових баз даних і тому саме її вибирають для дослідницьких цілей. На середину 1998р. база даних SW-PR містила ~70000 статей із понад 5000 різних видів. Проте основна маса даних отримана на невеликій кількості модельних організмів – Homo sapiens, Escherichia coli, Sacchаromyces cerevisiae, Muss mycelius, Ratus nirvregсus.
На рис. 4.2 показаний приклад статті із бази даних SW-PR. Кожна лінійка позначена двобуквеним кодом, який допомагає подавати інформацію у структурованому вигляді. Перша лінійка – ідентифікаційна (ІD) і закінчується знаком-термінатором „11”. У лінійці ІD подано інформацію про назву статті. ОPSD-SHEEP, білок, який складається з 348 амінокислотних залишків. Коди ІD у SW-PR створені так, щоб вони були інформативними і орієнтованими на людину-користувача. Вони побудовані за принципом PROTEIN-SOURSE (білок – джерело). Частина коду PROTEIN є акронімом, який позначає тип білка, а частина SOURCE вказує на назву виду організму. У наведеному прикладі ORSD означає, що це білок з ока і можна дедукувати, що це родопсин, а SHEEP – що він з вівці. З певних причин коди ІD інколи змінюються. Тому в базах SW-PR існує додатковий рядок АС – accession number – номер надходження. Він залишається незмінним у всіх версіях баз даних. У даному прикладі АС є PO 2700, що відносно неінформативно для людини, але зрозуміло для комп’ютера. Якщо у лінійці АС приведено кілька номерів, то перший, або первинний номер надходження найбільш загальноприйнятий.
У Лінійці DТ приведена інформація про дату формування статті сіквенсу у базі даних і деталі, коли вона була модифікована останній раз. Лінійка DE (або лінійки) інформують про назву чи назви, під якою (якими) відомий білок. У наведеному прикладі – родопсин. Наступна лінійка GN (gene) подає інформацію про назву відповідного гену, OS – (organism species) – характеризує вид організму і OC (organism classification) – класифікацію організму у біологічному царстві.
Наступна секція баз даних подає перелік посилань на джерело інформації для даної статті. Це може бути неопублікована інформація з наукової літератури, подана безпосередньо з проектів сіквенування, дані структурних чи мутагенних досліджень тощо. Саме SW-FD є важливим сховищем інформації, яку важко, якщо й можливо, знайти будь де інше.
Наступні лінійки – СС містять коментарі. Вони розділені за темами, як то функція (FUNCTION) білка, посттрансляційна модифікація (PTM – post-tranlationce modification).
Тканинна специфічність (TISSUE SPECIFICITY), субклітинна локалізація (SUBCELLULAR LOCATION) тощо. За наявності доступної інформації лінійки СС можуть також відображати відому подібність (SIMILARITY) чи належність до певної родини білків. У даному прикладі видно, що родопсин є інтегральним „зоровим” білком, знайденим у клітинах сітківки ока. Він належить до родини посинів і надродини типу 1 пов’язаних з G-білками рецепторів.
Поле DR (database cross-reference) забезпечує зв’язки з іншими базами даних по біомолекулах, включаючи первинні джерела, вторинні спеціалізовані бази даних тощо. Для родопсину з бика знаходимо зв’язок із первинним джерелом PІR до GPCR спеціалізованої бази даних до вторинної бази даних PROSITE, а також до бази даних доменів ProDom.
Лінійки KW (keywords) заповнені так званими ключовими словами. Лінійки LT (Lecture Table) – таблиця властивостей. В ній подана інформація по сіквенсу, наприклад, включаючи локальну вторинну структуру (таку як трансмембранні домени) – ділянку зв’язування лігандів – пострансляційні модифікації тощо. Тут кожна лінійка включає ключ (такий як TRONSMEM), локалізацію, властивості у послідовності (тут 37-61), коментар, який у наведеному прикладі показує рівень надійності даної анотації (наприклад, POTENTIAL). У прикладі з родопсином наявність трансмембранного домена виведена як результат використання програми передбачення, тому за відсутності 3D експериментальних даних може бути прийнятий лишень як потенційний.
Остання секція (SQ – sequence) присвячена власне послідовності. Для ефективності зберігання використовується однобуквений код (табл. 4.2). Кожна лінійка містить інформацію про 60 амінокислотних залишків. Дані сіквенсів у SWISS-PROT містять інформацію про вихідну форма білка, перед посттрансляційною модифікацією. Тому інформація щодо розмірів чи молекулярної маси не обов’язково відповідає характеристикою зрілого білка. Характеристики зрілих білків чи пептидів можуть бути редуковані зверненням до таблиць властивостей (FT). Саме вони показують ділянки послідовностей, які відповідають сигнальним (SIGNAL), транзитним (TRANSIT) чи пропептидним (PROPEP) ділянкам. Ключі CHAIN (ланцюг) чи PEPTIDE (пептид) використовуються для позначення локалізації зрілої форми.
Структура SW-PR дозволяє безпосереднє комп’ютерне звернення до різних полів інформації. Наприклад, комп’ютерна програма не потребує пошуку по всій статті. Вона безпосередньо направляється до лінійок з відповідною інформацією. Тому і також через високу якість біологічних анотацій, SWISS-PROT стала, ймовірно, найширше використовуваною базою даних білкових сіквенсів.
Tr EMBL – Translated EMBL
Ця база даних була створена в 1996 р. як анотований комп’ютерний додаток до SWISS-PROT. Tr EMBL використовує формат SWISS-PROT і містить трансляцію всіх кодуючих сіквенсів (CDS – coding sequences) у EMBL. Вона складається з двох головних секцій, позначених як SP-Tr EMBL, REM-Tr EMBL. Перша містить статті, які в кінці-кінців будуть включені у SWISS-PROT, але ще не були вручну анотовані. У другій подані сіквенси, які не призначені для включення у SWISS-PROT –імуноглобуліни і рецептори Е-клітин, фрагменти з менш ніж 8 амінокислотних залишків, патентовані сіквенси і трансляції кодонів, які не кодують реальні білки. Tr EMBL створена для задоволення потреб у добре структурованому джерелі, поділеному до SWISS-PROT. Проте, воно повинно дозволяти дуже швидкий доступ до деяких сіквенсів з геномних проектів без роботи з високоякісною SWISS-PROT. Це істотно збільшує ефективність певних наукових розробок.
NRL-3D
Ця база даних створюється і підтримується PІR із сіквенсів, отриманих з Brookhaven Protein Databank (PDB). Назви і біологічні джерела статей відповідають стандартній номенклатурі, яка використовується PІR. Включені також бібліографічні посилання і перехресне реферування з MEDLINE. Тут є також інформація про вторинну структуру, активні ділянки, ділянки зв’язування і модифікації, деталі експериментальних методів, розрізнення, R-фактор, ключові слова тощо.
База даних NRL-3D робить доступною для пошуку інформацію про сіквенси через ключові слова. База даних може використовуватись з ATLAS системою retuireal. Ця пошукова система спеціально розроблена для роботи з базами даних з сіквенсами макромолекул.
Швидкий розвиток первинних баз даних порождує багато питань, зокрема – чи всі вони мають одинаковий формат? Яка найбільш точна, яка містить найсвіжішу інформацію, яка найбільш повна? Маючи широкий вибір баз даних постає питання: яку саме ми повинні використовувати?
Зупинимось на базах даних про білки.
NRL-3D є найменш повною тому, що в ній містяться тільки PDB, але зате вона має перевагу в тому, що безпосередньо зв’язана зі структурною інформацією. PІR (1-4) – найбільш повне джерело, але якість анотацій невисока, навіть у PІR1. SWISS-PROT – високоструктурована база даних, що забезпечує прекрасні анотації, але кількість сіквенсів менша, ніж у PІR. Вибір складний, тому за потреби найкраще шукати у всіх базах даних.
3. Композитні бази даних білкових сіквенсів
Одним із способів вирішення проблеми збільшення первинних баз даних є створення так званих композитних баз даних, які поєднані з різними первинними джерелами. Композитні бази даних забезпечують більш ефективний пошук саме через можливість одночасної роботи з багатьма джерелами. Саме здатність роботи з багатьма базами даних забезпечує те, що один і той самий сіквенс шукається більше, ніж один раз.
Для створення композитних ресурсів можуть використовуватись різні стратегії. Якість кінцевого продукту залежить від вибраних джерел даних і критеріїв, які використовуються ними. Наприклад, композитний ресурс (джерело) буде неідентичним, якщо воно у процесі об’єднання виключає тільки ідентичні копії сіквенсів. Проте, якщо два ідентичні і високоподібні сіквенси викинуті (наприклад, послідовності, які відрізняються лишень одним амінокислотним залишком, таким як лідируючий метіонін), то результуюча база буде мало потрібна.
NRDB – (Non-Redundant Data Base) (не-непотрібна база даних).
Ця база даних поєднує в собі GenPept (виведена з автоматизованої трансляції GenBank CDS, сіквенсів PDB, SWISS-PRОT, SPupdate (тижневі поповнення SWISS-PROT), PІR i GenPeptupdate (щоденні поповнення GenPept). Тому ця база даних є дуже повна і містить найсвіжішу інформацію. Проте, строго кажучи це не є не-непотрібна, а неідентична, тобто тільки ідентичні копії видалені з джерела. Цей достатньо спрощуючий підхід призводить до багатьох проблем. Зокрема, база даних містить багато копій того самого білка як результат поліморфізму чи/і незначних помилок сіквенування, некоректних сіквенсів, які появляються у SWISS-PROT при ретрансляції з ДНК. На додаток багато сіквенсів включені як повні статті, але це певні фрагменти. В результаті – вміст NRDB містить багато помилок і, незважаючи на назву, відносно мало корисна.
OWL – це „не-непотрібна” база даних білкових сіквенсів створена в університеті Лідсу (Leeds, England) у співпраці з лабораторією Даресбурі (Daresbary) у Варрінгтоні (Warrington). До неї включені чотири головних первинних джерела: SWISS-PROT, PІR4, GenBank (CDS translations); NRL-3D. Джерела зорганізовані за принципом рівня анотацій і надійності сіквенсів. Тут найвищий пріоритет має база даних SWISS-PROT. Тому всі інші порівнюються з нею у процесі об’єднання. Цей процес відкидає ідентичні копії сіквенсів і сіквенси, які містять різницю в одній амінокислоті. Це призводить до компактизації і збільшення ефективності джерела для порівняння сіквенсів. Незважаючи на це, база даних має проблеми, подібні до NRDB. Наприклад, зберігаються деякі помилки сіквенування і некоректні ретрансляції GenBank. На додаток, нові версії OWL надходять тільки через 6-8 тижнів, що не дозволяє отримувати найсвіжішу інформацію. Сервіс BLAST для OWL доступний з UK EMBnet National Node, SEQNET із UCL Specialist Node.
MIPSX
Це об’єднана база даних створена у MAX-Planck Institute у Маріннсрід (Martinsried). Вона містить інформацію з наступних джерел: PІR1-4, попередні надходження y MІPS, MIPSOxn, MIPS/PJP попередні надходження – PIRMOD, попередні трансляції MІPS-MIPSTrn, дріжджові статті MІPS-MІPSH, NRL-3D, SWISS-PRОT, автоматичні трансляції EMBL-EMTrans, трансльовані статті GenBank-GBTrans, Vabatі, PSeq JP. Джерела впорядковані згідно пріоритетів у порядку (табл. 4.2). Сіквенси, які ідентичні між собою видалені. Тобто тут заміщені лише унікальні копії. Видалені також сіквенси, які включені в інші.
SWISS-PROT i Tr EMBL забезпечує ресурси, які включають практично всю наявну в базах інформацію і є „мінімально” непотрібні. Ця база даних має ту перевагу над попередніми, що вона містить менше помилок і не є дійсно не-непотрібна. На середину 1997 р. біля 30% сіквенсів у SWISS-PROT i Tr EMBL не були унікальними. Зниження кількості помилок вимагає більше людських зусиль і/чи подальшого розвитку систем управління базами даних. Названа система може використовуватись системою доступу SRS на Web-сервері EBІ.
Постає питання – як в умовах швидкого розширення баз даних вибрати найкращу? Знову ж це питання повинно розв’язуватись у зв’язку з поставленими завданнями. Яка з баз даних містить інформацію найвищої якості, яка найбільш повна, яка містить найсвіжішу інформацію? Не останню роль відіграє швидкість відповіді сервера.
Серед проаналізованих баз даних найчастіше використовується OWL. Це означає, що вона добре зорієнтована на споживача, дозволяє швидко отримати відповідь на питання і в ній можна працювати різними шляхами. На протилежність NRDB недоступна для складного пошуку, але корисна, бо містить найсвіжішу інформацію через щоденне поповнення з GenPept і щотижневе з SWISS-PROT.
На сьогодні з відносно легким доступом до Web найкраще шукати у багатьох базах даних для того, щоб бути переконаним, що нічого важливого не опущено. На час, поки не існує повних баз даних без помилок тільки такий шлях вирішення питань. Альтернативою може бути створення власних баз даних з використанням програм nr із NCBІ.
4. Вторинні бази даних
Вторинні бази даних (pattern) містять плоди аналізу сіквенсів з первиних джерел. Через те, що існує кілька різних первинних баз даних і багато шляхів аналізу білкових сіквенсів.
Їхні формати також відрізняються. Нетривіальним є і питання щодо використовуваних програмних інструментів, інтерпретації статей і біологічного значення результатів.
Картина сучасних баз даних досить складна і ще немає загальноприйнятих стандартів. Для побудови вторинних баз даних найчастіше використовують SWISS-PROT. Деякі з найважливіших вторинних бази даних приведені у табл. 3.3.
З табл. 3.3 зрозуміло, що кожна вторинна база даних містить різну інформацію. Гомологічні сіквенси можуть компонуватись разом у множинних порівняннях (Multiple alignments) у яких згруповані консервативні ділянки, які мають незначні або й зовсім не мають відмінностей у сіквенсі. Ці консервативні ділянки, або мотиви, зазвичай, пов’язані з життєво важливою біологічною функцією. Наприклад, щось критичне для структури чи функції білка.
Мотиви використовуються по-різному для побудови діагностичних моделей певних родин білків. Ідея полягає в тому, чи невідомий сіквенс можна пошукати проти бібліотеки відомих і відповісти не питання – містить чи ні даний сіквенс будь-яку з очікуваних характеристик і чи можна віднести його до якоїсь з відомих родин. Якщо відповідь позитивна, то з’являється можливість про певну біологічну функцію. Оскільки вторинні бази даних побудовані на основі багатьох первинних джерелах інформації, то працювати з ними краще, ніж з первинними базами даних. Проте, оскільки жодна з вторинних баз даних не повна, то вони повинні використовуватись тільки як доповнення до первинних баз даних, а не заміщати їх. Надалі ми зупинимось на основних вторинних базах даних.
PROSITE
Це перша вторинна база даних зараз підтримується Швейцарським інститутом біоінформатики (Swiss Institute of Bioinformatics). Суть, закладена в основу цієї бази даних, полягає в тому, що родини білків можуть бути просто і ефективно охарактеризовані одним найбільш консервативним мотивом серед багатьох відомих гомологів. Такий мотив, зазвичай, кодує ключову біологічну функцію, як-то – активний центр фермента, зв’язуючий центр ліганда чи металу тощо. Пошук у такій базі даних може, в принципі, допомогти визначити до якої родини білків новий сіквенс може належати чи домен (домени) чи функціональні центри може містити.
У PROSITE мотиви закодовані як регулярні експресії (regular expressions). Їх часто також називають моделями (pattern). Процес використання включає в себе конструювання множинних порівнянь і ручну перевірку для ідентфікації косервативних ділянок. Інформація щодо сіквенсу в індивідуальному мотиві зведена до одиничних консенсусних експресій і результатні дані використовуються для пошуку у SWISS-PROT. Результати перевіряються вручну з метою оцінки наскільки вдало використана модель. В ідеалі повинні бути лишень коректні подібності (так звані дійсно позитивні – true – positives) і некоректні подібності (false – positives). Пошуки у яких багато некоректних подібностей піддаються сумніву і тому необхідно повторно просканувати SWISS-PROT. Цей процес повторюється до тих пір, поки отримають оптимальні результати.
Іноді повна родина білків не може бути охарактеризована одним мотивом. У цьому випадку проводиться робота з другою висококонсервативною ділянкою. Процес пошуку повторюється до тих пір, поки всі або більшість представників родини з даної версії SWISS-PROT не дадуть мало, або й ні одної коректної подібності.
Тепер проаналізуємо структуру статей PROSITЕ статті організовані у двох різних файлах. Перший містить структуру і перелік всіх подібностей у батьківській версії SWISS-PROT. Як показано на рис. 3.3 дані структуровані у відповідності до статей SWISS-PROT, де кожне поле пов’язане зі специфічним типом інформації. Другий файл – документаційний. Він дає деталі охарактеризованої родини і, якщо відомо, опис біологічної ролі вибраного мотиву і відповідну бібліографію. З рис. 3.4 видно, що це текстовий файл довільного формату.
Структуру файлу даних легко зрозуміти. Подібно до SWISS-PROT кожна стаття містить ідентифікатор (ІD), який, зазвичай, є акронімом родини, і номер доступу, який має форму PSOOOOO. Лінійка ІD також вказує тип дискримінатора очікуваного файла.
Слово PATTERN у даному прикладі говорить нам, що очікується регулярна експресія. Назва, або опис родини міститься у лінійці DЕ. Лінійки NR забезпечують технічні деталі про (diagnostic performance) отримання і діагностичну надійність (діагностичну силу – diagnostic power) моделі. У цьому відношенні NR лінійки, ймовірно, є найбільш важливими для перевірки при першому огляді статті PROSITE. Велика кількість фальш-позитивних і фальш-негативних результатів свідчить про слабкість використаної моделі. У прикладі з рис. 3.3 можна встановити, що модель була виведена з версії (release) 32 бази даних SWISS-PROT, вона містила 49340 сіквенсів. Вона містить загалом 53 сіквенси, всі з яких, дійсно, позитивні. Іншими словами – це добрий зразок, без фальшивих послідовностей.
Лінійки СС (коментарні) забезпечують інформацією щодо таксономічного ряду родини (тут – як еукаріот), максимальної кількості повторів структури (тут тільки один), анотації функціональних ділянок (тут - сітківка) тощо. Надалі подані коментарі переліку номерів доступу та ідентифікаційні коди SWISS-PROT. Всіх позитивних подібностей структури (позначені Т) і будь-які можливі подібності (позначені Р). Вони часто є фрагментами. В нашому прикладі немає фальш-позитивних чи фальш-негативних подібностей, у випадку їх наявності вони проводяться і позначаються буквами F i N відповідно. Кількість фальшивих і загублених подібностей приводяться у лінійках NR. Остання лінійка файлу (DО) направляє до файлу родини повязаної інформації.
Структура файлу документації значно простіша. Кожна стаття ідентифікована її персональним номером доступу, який має форму PSOOOOO і забезпечує перехресне реферування до номеру доступу та ідентифікатора цього файлу даних. Далі у вільному форматі іде опис родини. Він включає деталі структури і, якщо відомо, біологічне значення. У файлі також містяться відповідні бібліографічні посилання. База даних PROSITE, доступна для пошуку через ключові слова і послідовності через Web-сервер Ex PASy.
PRINTS
Більшість родин білків характеризується не одним, а кількома консервативними мотивами. Тому є сенс побудови діагностичних характеристик членів родини. За цим принципом була розроблена база даних PRINTS fingerprint (відбитки пальців). Вона до 1993 р. підтримувалась кафедрою біохімії і молекулярної біології університетського коледжу Лондона. Відбитки пальців покращують діагностичну надійність у порівнянні з одномотивним методом, бо аналізуються і сусідні мотиви. Тобто, якщо пошук не дав позитивних подібностей у даному відбитку пальців, структура подібностей решти мотивів дозволяє користувачеві зробити розумно надійний діагноз.
У PRINTS мотиви закодовані у вигляді невідкритих і незважених локальних порівнянь. Тут інформація сіквенсів у наборі мотивів проведена через інтерактивний процес сканування баз даних. Тобто, із малих початкових множинних порівнянь ідентифікують консервативні мотиви і вручну вирізаються для пошуку баз даних. Зараз PRINTS отримують скануванням OWL, але надалі будуватимуються з пошуків у SWISS-PROT + SP + Tr EMBL. Результати перевіряються для визначення, які сіквенують подібності до всіх мотивів відбитків пальців. Якщо є більше повторів, ніж було у вихідному порівнянні, то додаткова інформація із цих нових сіквенсів, додається до мотивів і база даних сканується знову. Такий інтерактивний процес повторюється до тих пір, поки не можна буде знайти нових подібностей відбитків пальців. На кінець, результати анотуються для включення у базу даних.
Рис. 3.5. ілюструє три різних аспекти статті PRINTS. Нагорі файлу (а) кожному відбитку пальців дається ідентифікаційний код, зазвичай, акронім білка, який дав назву родині. Тут дано відбиток пальців, або позначення описів, закодованих як OPSIN. Всі статті також мають номери доступів у формі PROOOOO (не показано). Далі вказується кільість мотивів у відбитку пальців (тут – 3), кількість перехресних зв’язків бази даних і дата, коли стаття була введена у базу даних, і коли востаннє модифікована. Це дозволяє дістатися до додаткової інформації про родину у пов’язаних біологічних ресурсах. І, на кінець, – подано бібліографічну інформацію, коротку характеристику родини, пов’язану з технічними деталями відносно отримання відбитку пальців (не показано). Якщо можливо, то опис містить деталі структурного і/чи функціонального значення консервативних мотивів.
У другій секції статті у PRINTS (рис. 3.5 (б)) подана інформація стосовно діагностичної надійності як цілих відбитків пальців, так і мотивів, які входять до їх складу. Резюме містить інформацію про кількість подібних сіквенсів і скільки виявлено часткових подібностей. У нашому прикладі видно, що 73 сіквенси подібні у всіх трьох елементах відбитків пальців і один сіквенс подібний тільки у двох мотивах. Надалі в таблиці подана додаткова іноформація, що підтверджує ці результати. Тут деталізується скільки сіквенсів були подібні до кожного індивідуального мотиву. У цьому прикладі отримуємо важливу інформацію, що даний підхід не виявив подібності до мотиву 1.
В останній частині статті (рис. 3.5 (в)) приведені мотиви, використані для створення відбитку пальців. За нею слідує кінцевий мотив (не показаний), отриманий інтерактивним скануванням бази даних. Кожен мотив ідентифікується батьківським кодом ІD плюс число, яке вказує, яким компонентом відбитків пальців він є. У приведеному прикладі три мотиви відбитку пальців OPSIN позначені як OPSIN1, OPSIN2, OPSIN3 (останній не показаний). Після коду подається довжина мотиву. За нею слідує короткий опис, що вказує на відповідну кількість інтеграцій. Для першого мотиву це завжди буде „1”. Далі подаються самі порівнювані мотиви разом з кодом відповідного джерела у базі даних кожного з аналізованих фрагментів сіквенсів. Тут у початкове порівняння включені тільки сіквенси із SWISS-PROT. Потім слідує локалізація кожного з фрагментів у батьківському сіквенсі разом з інтервалом (тобто числом залишків) між фрагментами і попереднім сусідом. Для першого мотиву – це відстань від N-кінця.
Важливим наслідком такого сортування мотивів є те, що не втрачається інформація сіквенсів. Це означає, що надалі багато інших оціночних методів можна використати. Тому PRINTS забезпечує вихідний матеріал для автоматичного створення третинних баз даних (tertiary databases).
База даних доступна через ключові слова і пошук сіквенсів через Web-сервер Db Browser Bioinformatics. У 1999 р. він перемістився з UCL до університету Манчестера.
Дана база даних допускає вручну ввести документацію родини, що допомагає помістити інформацію про консервативні сіквенси в структурний чи функціональний контекст. Це дуже важливо для кінцевого користувача, який хоче, наприклад, тільки знати, чи новий сіквенс містить очікуваний мотив, а, що більш важливо, бажає зрозуміти його біологічне значення.
BLOCKS
Це база даних з багатьма мотивами, базована на родинах білків у PROSITE. Вона була розроблена у центрі досліджень рaку Фреда Хютчінсона (Fred Hutchinson). У цій базі даних мотиви чи блоки створюються автоматично шляхом визначення найбільш висококонсервативних ділянок у кожній родині білків. Це досягається шляхом ідентифікації початкової стадії трьох консервативних амінокислот. Утворені блоки калібруються проти SWISS-PROT для отримання рівня ймовірності шансу подібності. Дві оцінки визначаються для кожного блоку. Пеший визначає рівень, при якому 99,5% подібностей є істинно негативними. Другий є середнім значенням істинно позитивних оцінок. З метою порівняння діагностичної надійності індивідуальних блоків вони нормалізовані множенням на 1000 і діленням на оцінку 99,5. Середня стандартизована оцінка для істинно позитивних подібностей називається силою. На рис. 3.6 приведено типову структуру статті BLOCKS. Вона сумісна з використовуваною у PROSITE. Тут кожен блок ідентифікований загальним кодом (ІD), номером доступу у формі BLOOOOX (Буква Х вказує який є блок у наборі блоків родини). Так блок BL60327C є третім блоком бактеріального родопсину. Лінійка ІD вказує на тип дискримінатора, очікуваного у файлі. Тут слово BLOCK сигналізує про очікування блоку. Лінійка АС вказує мінімальну і максимальну відстані блоку від попереднього сусіда, або від N-кінця для першого блоку в групі. Лінійка DE містить назву, або опис родини. Лінійка BL – вказує на діагностичну силу і деякі фізичні деталі блоку. Це включає триплети амінокислот (тут R, V, A), ширину блоку і кількість сіквенсів, які він містить, з рівнем оцінки 99,5%, і, накінець, силу.
При розділенні істинно позитивних від істинно негативних, сильні блоки більш ефективні, ніж слабкі (з силою менше, ніж 1100). Далі слідує інформація, яка вказує ІD даного сіквенсу у SWISS-PROT, стартову позицію фрагменту, сам сіквенс фрагменту і оцінку або вагу, яка забезпечує величину близькості взаємозв’язку даного сіквенсу з іншими у блоці (100 – найдалі). Фрагменти сіквенсів подібних менше, ніж на 80% розділюються порожньою лінійкою.
Оскільки BLOCKS створюється повністю автоматизованим методом, блоки не анотовані, але зате є зв’язки до відповідних документальних файлів PROSITE. Ця база даних доступна через ключові слова „пошук послідовностей на Web-сервері Blocks y FHCRC”. Даний сервер також забезпечує базу даних PRINTS у форматі BlOCKS. Рис.3.7 ілюструє типовий мотив у форматі BlOCKS. Cтруктура статті ідентична тій, яка використовується у BlOCKS, з незначною різницею у лінійках АС і ВL. Тут на лінійці АС дається номер доступу з буквою, яка вказує яким є даний компонент у відбитку пальців. Так PROO238A свідчить, що це є перший мотив. На лінійці BL інформація про триплет заміщена словом „адаптована” (adapted), що вказує на те, що дані мотиви взяті з іншої бази даних.
Оскільки BlOCKS –format PRINTS гепаровані автоматично з PRINTS, його блоки не анотовані. Документація про родини і мотиви може бути отримана через зв’язки до відповідних статей PRINTS. База даних доступна через ключові слова і пошук послідовностей через Web-сервер Blocks у FHCRC. Понад 50% закодованих у PRINTS родин не представлені у PROSITE. Тому робота у двох базах даних BLOCKS дасть надійніший результат, ніж з кожним зокрема.
Profiles (профілі)
У попередніх частинах характеристика родин білків грунтувалась на філософії консервативних ділянок. Проте, існує й альтернативний підхід, а саме: варіабельні ділянки між консервативними мотивами також містять цінну інформацію. Тут дискримінатором стає порівняння повного сіквенсу. Дискримінатор, який називають профілем (profile) зважають для того, щоб показати де дозволені вставки і делеції (INDELs), які типи залишків дозволені для цих позицій і де знаходяться найбільш консервативні ділянки. Профілі також називають матрицями ваги чи ваговими матрицями (weight matrices). Вони забезпечують чутливий спосіб визначення далеких взаємозв’язаних сіквенсів, де є тільки дуже мала кількість добре консервативних залишків. У цих умовах регулярні експресії не можуть забезпечити доброї дискримінації і тому або буде знайдено багато фальш-позитивів, або втрачено дійсно-позитивів.
Обмеженість регулярних експресій у ідентифікації віддалених гомологів призвела до створення короткого, але детального і повного набору профілів у Швейцарському інституті eкспериментальких досліджень раку (JSREC) – в Лозані. Кожен профіль містить окремі дані і анотації родин у формі такій самій, як PROSITE, і файли документації. Це дозволило використовувати Profiles як складову частину PROSITE.
Рис. 3.8 демонструє структуру файлу даних профілю. Вона близька до структури у PROSITE, але має й певні відмінності. Так, у лінійці ІD слово MATRIX вказує, що типом дискримінатора є профіль. Лінійки РА (структура) замінені лінійками МА (matrix). Вони перераховують різні параметри специфікації, використані для створення і опису профілю. Тут включені деталі використаного алфавіту (для нуклеїнових кислот – {ACGT}) чи амінокислот ({АВ...Z}), довжини профілю, оцінки відрізання (відтинання), які сконструйовані так, щоб, де можливо, виключити випадкові подібності тощо. Поле І містить інформацію про оцінки місця специфічних профілів для вставок, а М – про місця подібностей. Профілі, які не відповідають стандартам анотацій, необхідних для включення в PROSITE, ніколи недоступні для пошуку через Web-сервер JSREC.
Pfam
Є альтернативою до використання профілів кодування порівнянь у формі моделей Гідена-Маркова (Hidden-Markov Models – HMMs). Вони базуються на статистичній обробці, яка аналізує вміст лінійних ланцюгів подібності, місця делецій і вставок щодо кодування консервативності сіквенсів у аналізованій родині. Набір HMMs для білкових доменів зберігається у базі даних Pfam, яка підтримується центром Сенджера (Sanger Centre). База даних, базована на двох різних класах порівнянь: Pfam-A – досить точні відкориговані вручну порівняння і Pfam-B – менш надійні, отримані автоматичною кластеризацією SWISS-PROT.
Високоякісні результати впорядковані, і порівняння використовуються для побудови HMMs, з якими автоматично порівнюються сіквенси для отримання кінцевих повних порівнянь. Якщо вихідні порівняння не дають діагностично значимих HMMs, порядок покращується і повторюються інтеграції до моменту отримання доброго результату. Методи, які дають найкращі повні порівняння можуть змінюватись у залежності від родини. Тому зберігаються параметри для можливості відтворення результатів. Набір порядків і повні подібності, пов’язані з мінімальними анотаціями. База даних і перехресне реферування літератури, як і самі HMMs, входять до складу Pfam-А. Всі домени сіквенсів, які не ввійшли до Pfam-А, автоматично кластеризуються і зберігаються у Pfam-В.
Рис. 3.9 подає структуру статті у Pfam-А. Вона подібна до такої у PROSITE. Тут є АС – номер доступу (у формі PFOOOOO) i ІD – код – як ключове слово, DE – назва або опис родини, і AU – вказує на автора статті. У лінійках AL і AM вказані методи, використані для отримання результатів (seed) і повного автоматичного порівняння відповідно. У лінійках SE, DR, GA подані відповідно база даних, звідки отримана інформація про те, чого члени порядку входять до однієї родини, перехресні підходящі бази даних і пошукова програма з використаним способом відкидання, що була використана для побудови повної подібності. Більшість статей у Pfam ще не доступна для пошуку через Web-сервер у центрі Сенджера (Hinxton Gevone Campus).
IDENTIFY
Це третинне джерело автоматично генероване із баз даних BLOCKS і PRINTS на кафедрі біохімії Стенфордського університету. Для цього використана програма eMOTIF, базована на генеруванні консенсусних експресій із консервативних ділянок порівнянь сіквенсів. Проте, тут не кодується точна інформація, виявлена у кожній позиції вирівнювання (чи мотиву). Швидше – реалізований підхід, в якому альтернативні залишки „терпляться” у відповідності до набору передбаченого групування. Воно показане в табл. 3.4. Ці групи відповідають різним біохімічним властивостям, таким як заряд і розмір. Це дає теоретичну ймовірність того, що отримані мотиви мають розумну біохімічну інтерпретацію. Отримані моделі виявляють більше дійсно позитивних подібностей, а також фальш-позитивних.
База даних IDENTIFY і її пошукова програма eMOTIF доступна для використання через білкову функцію Web-сервера кафедри біохімії Стенфорда.
Композитні бази даних структури білків
Зараз аналіз сіквенсів вимагає роботи з багатьма базами даних і „причісування” результатів з метою отримання узгоджених результатів. У майбутньому вторинні бази даних стануть більш направленими. Куратори PROSITE, Profiles, PRINTS, Pfam співпрацюють з метою створення уніфікованої бази даних родин білків. Кінцевою метою співпраці є створення єдиного центрального джерела анотацій родин у Женеві на основі існуючої документації у PROSITE і PRINTS. Кожна стаття буде містити різні дискримінатори батьківських баз даних: PROSITE, Profiles, PRINTS, Pfam. Співпрацюють у даному проекті і куратори бази даних BLOCKS, створюючи Web-сайт proWeb. Первинним завданням кураторів proWeb створити щось подібне до письмових оглядів, але з тією перевагою, що вони можуть легко поновлюватись і включати, наприклад, аніміційні матеріали.
Бази даних з класифікацією структури
Це складніше питання ніж аналіз послідовності. Воно вимагає доброго розуміння взаємозв’язків між сіквенсом і структурою. Найчастіше використовуються дві класифікаційні схеми.
SCOP- Structural Classification of Proteins. Вона підтримується MRC-лабораторією молекулярної біології і центром конструювання білків. У SCOP описані структурні і еволюційні взаємозв’язки між білками з відомою структурою. База даних сконструйована поєднанням ручних і автоматичних методів. Складність проблеми полягає в високій різноманітності структури від малих одиничних доменів до великої кількості багатодоменних ансамблів. У ряді випадків є сенс обговорити структуру білка як на мультидоменному рівні, та і на рівні його індивідуального домену.
Білки, класифіковані у спосіб, який відображає структурні і еволюційні зв’язки. Ієрархія має багато рівнів, але принципово тут описується родина, надродина і складки. Зв’язки між рівнями можуть бути суб’єктивними, але вищі рівні, на загал, віддзеркалюють ближчі структурні подібності.
Родина – білки поміщуються у родини зі зрозумілими еволюційними взаємозв’язками, якщо їх сіквенси ідентичні ?30%. Проте, це правило не абсолютне. Наприклад, у випадку глобінів деякі члени родини мають тільки 15% ідентичності. У цьому випадку працює наявність спільного предка, що виводиться через подібність структури і функцій.
Надродини – білки поміщуються в надродини, не дивлячись на низьку ідентичність сіквенсів, але, коли структурні і функціональні характеристики, допускають спільне еволюційне походження.
Складки – білки класифікуються як такі, що мають спільні складки, якщо вони мають організації і з тією же топологією. При цьому не зважають на наявність чи відсутність спільного еволюційного походження. У цих випадках структурні подібності могли виникнути як результат фізичних принципів, які задають часткову організацію укладки і топологію складок.
Web-сервер MRC Laboratory.
CATH – Class Apchitecnupe, Topology, Homology. Ця база даних містить ієрархічну класифікацію доменів білкових структур і підтримується UCL. Джерело, в основному, створене автоматичними методами, але ручна перевірка необхідна у випадку, коли не спрацьовують автоматичні методи. Різні категорії цієї класифікації ідентифікуються як унікальні номери (по аналогії з класифікацією ферментів – Е.С.system) і описовими назвами. Такі цифрові схеми дозволяють ефективно маніпулювати даними з допомогою комп’ютера. Ієрархія має 5 рівнів:
Клас (class) – походить від змісту вториної структури і упаковки. Розрізняють чотири класи доменів: 1 – переважно б; 2 – переважно в; 3 – б-в, який включає обидва альтернативні б/в і б+в структури і 4 – ті, які містять мало елементів вторинної структури.
Архітектура (architecture) описує великі організації вторинних структур, ігноруючи їх зв’язки. Зараз вони надаються вручну, використовуючи простий опис організації вторинних структур, таких як бочка, сендвіч, клубок тощо.
Топологія (topology) описує як загальну форму, так і зв’язки вторинних структур. Це досягається шляхом використання алгоритмів порівняння структури, які застосовують емпірично. Виведені параметри для кластеризації доменів. Структури, в яких, щонайменше, 60 % подібності, відносять до одного рівня топології.
Гомологія (Homology) групує домени, які поділяють ?35% ідентичності сіквенсів і, вважається, що мають спільного попередника. Спочатку подібності виявляють з порівняння сіквенсів, а далі – алгоритмами порівняння структури.
Послідовність (Sequence) забезпечує кінцевий рівень у єрархії. Тут структури у гомологічних групах далі кластеризуються на основі ідентичності сіквенсів. На цьому рівні домени мають ідентичність сіквенсів >35%, що вказує на високу подібність структур і функцій.
CATH доступна через Web-сервер підрозділу структури і моделювання біомолекул у UCL.
PDBsum
Головне джерело структурної інформації знаходиться на Web-сервері UCL, PDBsum забезпечує резюме і аналіз всіх структур у PDB. Тоже резюму дає відшліфований вміст статті PDB з точки зору розрізнення (resolution) і R-фактора (R-factor), кількості ланцюгів білка, лігандів, іонів металів, вторинної структри, зображення складок, взаємодії лігандів тощо. Тут зібрана разом інформація про 1D (сіквенс), 2D (мотив) і 3D (структура) рівні. Цей ресурс і подібні до нього будуть ставати все важливішими з покращенням техніки візуалізації.
Скачать
Рефераты по информатике Загальна організація баз даних. Первинні бази даних. Композитні бази даних білкових сіквенсів. Композитні бази даних структури білків. 1. Загальна
Оценок: 611 (средняя 5 из 5)
© 2014 - 2020 BigLib.info