Enhancing Missense Variant Classification with AlphaFold2-Generated Mutant Structures

Qorri Erda
Enhancing Missense Variant Classification with AlphaFold2-Generated Mutant Structures.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2025)

[thumbnail of erda_qorri_booklet_phd_final.pdf]
Előnézet
PDF (tézisfüzet)
Download (757kB) | Előnézet
[thumbnail of qorri_erda_phddiss_final.pdf]
Előnézet
PDF (disszertáció)
Download (2MB) | Előnézet

Magyar nyelvű absztrakt

A genetikai variánsok, különösen a hibás misszensz variánsok, jelentős szerepet játszanak az emberi betegségekben, hozzájárulva a monogénes rendellenességek és a rák kialakulásához. Ezek a mutációk jellemzően a fehérjefunkciót károsíthatják a fehérjeszerkezet stabilitásának megzavarásával. Mivel ezek a variánsok jelentős hatással vannak az emberi egészségre, azonosításuk és osztályozásuk kiemelt prioritás a klinikai diagnosztikában és a személyre szabott orvoslásban. Az újgenerációs szekvenálás fejlődése jelentősen csökkentette a szekvenálási költségeket, ami felgyorsította a módszer integrációját a rutinszerű klinikai diagnosztikába, és lehetővé tette olyan misszensz variánsok ezerszámra történő azonosítását, amelyek közül soknak még nem ismert a fehérjefunkcióra gyakorolt hatása. Ezen variánsok, amelyeket bizonytalan jelentőségű variánsoknak (VUS) nevezünk, jelentős diagnosztikai kihívást jelentenek az orvosok és a betegek számára. A jelentős VUS-szám-növekedés kezelésére számos in-silico módszert dolgoztak ki az elmúlt évtizedben. Ezek klinikai alkalmazása azonban továbbra is korlátozott, mivel jelenleg csak támogató bizonyítékként elfogadottak. Tekintettel arra, hogy e módszerek ezerszámra képesek gyorsan priorizálni és osztályozni a variánsokat, folyamatos kutatás zajlik prediktív teljesítményük javítása érdekében. A szerkezeti információk hosszú ideje értékes forrásnak számítanak, amelyek javíthatják e prediktív modellek teljesítményét, de integrációjukat nagymértékben akadályozza a fehérjeszerkezetek korlátozott elérhetősége. Az AlphaFold2 fejlesztése lehetővé tette több ezer fehérje szerkezetének elérését, új lehetőségeket teremtve a szerkezeti információk beépítésére a variánsok osztályozásába. Jelen tanulmányban átfogó áttekintést adunk a legszélesebb körben használt variánshatás-előrejelzők teljesítményéről, és megvizsgáljuk a mutált fehérjeszerkezetekből származó szerkezeti jellemzők hatékonyságát a misszensz variánsok osztályozásának javításában. A tanulmány első részében tíz variánshatás-előrejelző, a PROVEAN, a META-SNP, a SIFT, a PolyPhen-2 (HumDiv és HumVar), az SNPs&GO, a PredictSNP, a PhD-SNP, a PANTHER-PSEP és a PMut teljesítményének értékelésére összpontosítottunk általános és génspecifikus adathalmazok használatával. Kimutattuk, hogy a benchmarkolt variánshatás-előrejelzők teljesítménye jelentősen eltér a különböző adathalmazok között, és egyesek génspecifikus viselkedést mutatnak. A misszensz variánsok osztályozására vonatkozó irányelvek keretében bemutattuk, hogy ez a teljesítmény befolyásolja a számítógépes elemzés kimenetelét. Egy sor kritérium alapján meghatároztuk a legjobban teljesítő variánshatás-előrejelzőket a BRCA1 és BRCA2 génekhez; ezeket ajánljuk a variánsok priorizálására és osztályozására ezen gének esetében. Ezen kívül felhívtuk a figyelmet az 1-es típusú körforgás hatására a legjobb teljesítményű variánshatás-előrejelzők kiválasztásában, hangsúlyozva, hogy ennek figyelembevételével változhat a rangsoruk. A tanulmány második részében nagy léptékű fehérjeszerkezet-előrejelző rendszert, valamint egy nagy teljesítményű, számítástechnikai környezethez optimalizált feladatküldési stratégiát dolgoztunk ki, hogy előrejelezzük 77.713 fehérje szerkezetét, melyek közül 65,612 variáns modell és 12,101 vad típusú struktúra volt. A generált struktúrák 70,1%-a magas konfidenciával lett előrejelezve, így a mutált fehérjeszerkezetekből eddig létrehozott legnagyobb gyűjteményt mutatjuk most be. Ezek a struktúrák a jövőbeli kutatások során a variánsok osztályozásához, például a jellemzők fejlesztéséhez és mérnöki alkalmazásához, valamint a strukturális bioinformatika területén, többek között a fehérje-fehérje kölcsönhatások vizsgálatához nyújthatnak alapot. Végül, a harmadik részben a generált mutált fehérjeszerkezetek potenciálját vizsgáltuk a misszensz variánsok osztályozásának javításában. A vad típusú és mutált, patogén és jóindulatú struktúrák közötti különbségek rögzítésével öt különálló jellemzőt fejlesztettünk ki: alfa szén távolság (Cα-Dist), alfa szén delta pLDDT pont (Cα-ΔpLDDT), Delta SASA normalizált (ΔSASA Normalizált), Miyazawa-Jernigan potenciál a mutánsra (MJ-Mutant) és dRMS lokális. Ezen jellemzőket három gépi tanulási modell, a SIESTA, a SIESTA-Str és a SIESTA-Seq használatával képeztük. Kimutattuk, hogy míg a szerkezeti jellemzők önállóan nem teljesítettek jobban, mint a szekvencia alapú információk, azok kiegészítő szerepet játszhatnak, amit a SIESTA teljesítményének javulása is bizonyít, amely mind a szerkezeti, mind a szekvencia alapú jellemzőket integrálja. Ezek az eredmények, valamint a kiterjesztett mutált fehérjeszerkezetek gyűjteménye alapot nyújt a variánsok osztályozásához a jövőbeli kutatások során, javítva a bizonytalan jelentőségű variánsok osztályozását és újraosztályozását.

Absztrakt (kivonat) idegen nyelven

Genetic variants, particularly missense variants, play a significant role in human disease, contributing to the development of both monogenic disorders and cancer. Typically, these mutations can impair protein function by disrupting protein stability. Therefore, given their immense impact on human health, their identification and classification are a priority in clinical diagnostics and personalized medicine. Recent advancements in next-generation sequencing have significantly reduced sequencing costs. This has accelerated its integration into routine clinical diagnostics, resulting in the identification of thousands of missense variants, many of which have unknown impacts on protein function. These variants, known as variants of uncertain significance (VUS), present a major diagnostic challenge for medical professionals and patients. To address the increasing number of reported VUS, numerous in-silico methods have been developed over the past decade. However, their clinical application remains limited as they are currently accepted only as supportive evidence. Given their potential to swiftly prioritize and classify thousands of variants, continuous research is conducted to improve their predictive performance. Structural information has long been considered a valuable resource that could enhance the performance of these predictive models, but its integration has been largely hindered by the limited availability of protein structures. The development of AlphaFold2 has made it possible to access the structures of thousands of proteins, creating new opportunities to incorporate structural information into variant classification. In this thesis, we present a comprehensive overview of the performance of some of the most widely used variant effect predictors and explore the efficiency of structural features derived from mutated protein structures in improving missense variant classification. The first part of the study concentrated on the evaluation of the performance of ten variant effect predictors, PROVEAN, META-SNP, SIFT, PolyPhen-2 (HumDiv and HumVar), SNPs&GO, PredictSNP, PhD-SNP, PANTHER-PSEP, and PMut using general and gene-specific datasets. We have demonstrated that the performance of the benchmarked variant effect predictors varies considerably across different datasets, with some exhibiting gene-specific behavior. When analyzed within the framework of guidelines for missense variant classification we show that this performance influences the outcome of the computational analysis. Based on a set of criteria, we have determined the best-performing variant effect predictors for BRCA1 and BRCA2, which we recommend for variant prioritization and classification in these two genes. Additionally, we have highlighted the impact of type 1 circularity in the selection of the best-performing variant effect predictors, noting that failure to account for it can alter their ranking. In the second part of this study, we developed a large-scale protein structure prediction pipeline, along with a high-performance computing-optimized job submission strategy, to predict the structures of 77,713 proteins, including 65,612 variant models and 12,101 wild-type structures. With 70.1% of the generated structures predicted with high confidence, we present the largest collection of mutated protein structures to date. These structures may serve as a foundation for future studies in various areas in variant classification such as feature development and engineering as well as in structural bioinformatics, including studies on protein-protein interactions. Lastly, in part 3 we shifted our focus on exploring the potential of the generated mutated protein structures to enhance missense variant classification. By capturing differences between the wild-type and mutated, pathogenic, and benign structures five distinct features were developed: Alpha carbon distance (Cα-Dist), Alpha carbon delta pLDDT score (Cα-ΔpLDDT), Delta SASA Normalized (ΔSASA Normalized), Miyazawa-Jernigan Potential of the mutant (MJ-Mutant), and dRMS Local. These features were used to train three machine learning models, SIESTA, SIESTA-Str, and SIESTA-Seq. We have shown that while structure-derived features alone did not outperform sequence-based information, they have the potential to play a complementary role, as evidenced by the improved performance of SIESTA, which integrates both structural and sequence-based features. These findings along with the extended collection of mutated protein structures lay the groundwork for advancing future research in variant classification, with the potential to improve the classification and reclassification of variants of uncertain significance.

Mű típusa: Disszertáció (Doktori értekezés)
Publikációban használt név: Qorri Erda
Témavezető(k):
Témavezető neve
Beosztás, tudományos fokozat, intézmény
MTMT szerző azonosító
Haracska Lajos
tudományos tanácsadó, PhD DSc, HRN SZBK Genetikai Intézet
10011516
Szakterület: 01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.20. Gépi tanulás, statisztikus adatfeldolgozás, jelfeldolgozáson alapuló alkalmazások
01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.21. Tudományos számítási, szimulációs és modellező eszközök
01. Természettudományok > 01.06. Biológiai tudományok > 01.06.17. Biológia (elméleti, matematikai, hőbiológia, kriobiológia, biológiai ritmus), evolúciós biológia > 01.06.17.08. Bioinformatika
Doktori iskola: Biológia Doktori Iskola
Tudományterület / tudományág: Természettudományok > Biológiai tudományok
Nyelv: angol
Védés dátuma: 2025
Terjedelem: 115
Kulcsszavak: missense variants cancer alphafold2 SIESTA machine learning protein structures ParaFold supercomputing
EPrint azonosító (ID): 12889
A feltöltés ideje: 2025. szept. 26. 14:27
Utolsó módosítás: 2025. okt. 02. 14:34
URI: https://doktori.bibl.u-szeged.hu/id/eprint/12889
Védés állapota: nem védett (Nem idézhető amíg nem kap DOI számot.)

Actions (login required)

Tétel nézet Tétel nézet