[Zurück]


Dissertationen (eigene und begutachtete):

N. Mujezinovic:
"Improved Protein Identification After Fast Elimination of Non-Interpretable Peptide MS/MS Spectra and Noise Reduction";
Betreuer/in(nen), Begutachter/in(nen): G. Raidl, F. Eisenhaber; Institut für Computergraphik und Algorithmen, TU Wien, 2007; Rigorosum: 05/2007.



Kurzfassung deutsch:
Tandem-Massenspektrometrie (MS/MS) ist die Standardmethode f¨ur die Proteinidentifikation
in biologischen Pr¨aparaten. In Proteomics-Studien behindert
aber die große Zahl der zu bearbeitenden MS/MS-Spektren und deren
Kontaminierung mit Hintergrund-Peaks die schnelle und zuverl¨assige computergest
¨utzte Interpretation. Typischerweise tragen weniger als 1% der
Spektren pro Pr¨aparat und nur etwa 10% der Peaks pro Spektrum zum Endresultat
bei. Die Hintergrund-Peaks in den Spektren stammen nicht nur
von den Isotopenvarianten und mehrfach geladenen Replikaten der Peptid-
Fragmentationsprodukte, sondern auch von unbekannten Fragmentationswegen,
pr¨aparatspezifischen oder systematischen chemischen Kontaminationen
oder vom Rauschen der empfindlichen elektronischen Nachweissysteme. Neben
der dramatischen Verl¨angerung der Rechenzeit der Interpretationssoftware
kann der Hintergrund auch zur falschen Proteinidentifikation f¨uhren,
insbesondere bei de novo- Sequenzierungsalgorithmen.
In dieser Arbeit wurden unter anderem zwei schnelle Verfahren entwickelt,
die den "Heuhaufen" der MS/MS-Daten wesentlich reduzieren: (1) Sequenzleiterregeln
sortieren Spektren aus, von denen sich keine Peptidsequenzen
ableiten lassen. (2) Techniken auf Basis Modifizierter Fourier-Transformation
l¨oschen einen Teil des Hintergrunds in den verbleibenden Spektren. Im
Durchschnitt m¨ussen nur ca. 35% der urspr¨unglichen MS/MS-Spektren, die
wiederum um ca. ein Viertel in ihrer Gr¨oße reduziert wurden, an die Interpretationssoftware
¨ubergeben werden. Dies wird faktisch ohne Verlust an
Information und mit einer erh¨ohten Sequenzabdeckung erreicht, obwohl die
ben¨otigte Rechenzeit um etwa zwei Drittel reduziert wurde. Der Algorithmus
wurde in Form der Anwendung MS Cleaner implementiert.

Kurzfassung englisch:
Tandem mass spectrometry (MS/MS) has become a standard method for protein
identification in biological samples, but in large-scale proteomics studies,
the huge number and the noise contamination of MS/MS spectra obstruct
swift and reliable computer-aided interpretation. Typically, less than 1% of
the spectra per sample and about 10% of the peaks per spectrum contribute
to the final result. The background peaks in the spectra result not only from
isotope variants and multiply charged replicates of the peptide fragmentation
products but also from unknown fragmentation pathways, sample-specific
or systematic chemical contaminations or from noise generated by the electronic
detection system. Besides dramatically prolonged computation time,
the noise can lead to incorrect protein identification, especially in the case of
de novo sequencing algorithms.
Two fast screens can essentially reduce the haystack of MS/MS data:
(1) Sequence ladder rules remove spectra non-interpretable in peptide sequences.
(2) Modified Fourier-transform-based criteria clear background in
the remaining data. On average, only a rest of 35% of the MS/MS spectra
(each reduced in size by about one quarter) have to be handed over to the
interpretation software with proportional decrease of computer resource consumption,
essentially without loss of information and a trend to improved
sequence coverage.
In this work, an algorithm for detection and transformation of multiply
charged peaks into singly charged monoisotopic peaks, removal of heavy
isotope replicates and random noise is described. The approach is based on
numerical spectral analysis and signal detection methods. The algorithm has
been implemented in a stand-alone computer program called MS Cleaner.

Erstellt aus der Publikationsdatenbank der Technischen Universität Wien.