[Back]


Diploma and Master Theses (authored and supervised):

F. Dusberger:
"Improving the protein identification performance in high-resolution mass spectrometry data";
Supervisor: G. Raidl, K. Mechtler, P. Pichler; Institut für Computergraphik und Algorithmen, 2012; final examination: 2012-10.



English abstract:
The field of proteomics is concerned with the study of structure and function of proteins. The
most commonly used approach for the analysis of proteins is the bottom-up analysis where a
protein is first digested into smaller peptides which are then analyzed by LC-MS/MS in order
to confirm the identity of the original protein. To analyze these peptides they are first separated
via liquid chromatography (LC) before their mass-over-charge ratios are recorded in the mass
spectrometer as MS1-spectra. Selected peptides (precursors) are fragmented yielding MS2-
spectra of their respective fragment ions (MS/MS). These high-throughput experiments generate
vast amounts of data and are referred to as shotgun proteomics experiments.
For the large amount of raw data an appropriate data analysis is required in order to extract
as much useful information as possible and filter out superfluous and redundant parts. However,
common database search engines, which are used for identification of the peptides using
their masses and the associated MS2-spectra, currently throw away most of the information contained
in MS2-spectra. Moreover, the benefit of the high mass-accuracy provided by state of
the art mass spectrometers is forfeited by the instruments themselves, as the MS2-spectra of the
peptides are usually not recorded at the optimal time point where the intensity of the specific
peptide is highest. To compensate for these drawbacks sophisticated methods are necessary that
can preprocess the spectra accordingly.
In this thesis we studied the application of two ways of MS2-spectrum preprocessing to
increase the number of spectra that can be identified by facilitating the identification step of the
database search engine.
First, different MS2-deisotoping and -deconvolution methods were analyzed which aim for the
removal of isotope peaks and peaks of multiply-charged variants of the analyte peptides. These
peaks unnecessarily impair the search engine´s performance by increasing the search space. We
demonstrate that the algorithms raise the confidence in correct identifications by eliminating
obstructing peaks, especially from the areas around correct fragment peaks. Furthermore, we
show that these methods are nonetheless limited due to the design of the scoring algorithms of
common search engines.
Secondly, to fully exploit the information that is made available through high mass-accuracy,
we developed a 3d-peak picking algorithm that does not rely on the peptide mass information
of the single MS1-spectrum it was selected from for fragmentation but additionally reconstructs
the peptide´s elution profile gathering many data points to obtain a statistically confident value
for the mass. Experiments demonstrated that peptide masses calculated from reconstructed 3dpeaks
have a significantly higher precision than using the conventional precursor mass values
provided by the instrument. We show that the high precision also increases the identification
performance, especially for strict search tolerances.
The designed algorithms were implemented in a plugin for a commercially available software
package (Proteome Discoverer by Thermo Fisher Scientific) which is now used in the
proteomics group of Karl Mechtler. Moreover, the plugin is available for download, free of
charge.

German abstract:
Die Proteomik befasst sich mit der Struktur und Funktion von Proteinen. Der am weitesten
verbreitete Ansatz zur Analyse von Proteinen ist die "bottom-up"-Analyse, bei der ein Protein
zuerst in kleinere Peptide verdaut wird, welche dann mittels LC-MS/MS analysiert werden, um
die Identität des ursprünglichen Proteins zu bestätigen. Um diese Peptide analysieren zu können,
werden sie zunächst mittels Flüssigchromatographie (LC) aufgetrennt. Anschließend wird deren
Masse-zu-Ladung-Verhältnis im Massenspektrometer gemessen und in Form von MS1-Spektren
aufgezeichnet. Ausgewählte Peptide (Precursor) werden fragmentiert, was zu MS2-Spektren der
jeweiligen Fragmentionen führt (MS/MS). Diese Hochdurchsatzexperimente erzeugen immense
Datenmengen und werden als Shotgun Protemoics-Experimente bezeichnet.
Diese große Menge an Rohdaten muss durch adäquate Methoden analysiert werden, um so
viele nützliche Informationen, wie möglich zu extrahieren und überflüssige, redundante Teile
herauszufiltern. Die verbreiteten Datenbank-Suchmaschinen, die zur Identifikation der Peptide
mittels ihrer Masse und der zugehörigen MS2-Spektren herangezogen werden, verwerfen zur
Zeit einen Großteil der Informationen im MS2-Spektrum. Zudem wird der Vorteil der hohen
Massengenauigkeit, welche mit den modernsten Massenspektrometern erreichbar ist, durch die
Geräte selbst wieder eingebüßt. Dies hat den Grund, dass die MS2-Spektren der Peptide in
der Regel nicht zum optimalen Zeitpunkt, zu dem die Intensität des Peptids am größten ist,
aufgenommen werden. Um diesen Nachteilen entgegenzuwirken, sind ausgefeilte Methoden für
entsprechendes Preprocessing der Spektren nötig.
In dieser Diplomarbeit untersuchen wird zwei Arten von Preprocessing-Methoden für MS2-
Spektren, mit dem Ziel die Anzahl der Spektren, die identifiziert werden können zu erhöhen,
indem der Identifizierungsprozess, der von der Datenbanksuchmaschine durchgeführt wird, vereinfacht
wird.
Erstens werden verschiedene MS2-Deisotoping und -Deconvolution Methoden untersucht, welche
das Ziel haben, Isotopen-Peaks und Peaks mehrfach geladener Varianten der Analytpeptide
zu entfernen. Durch die Vergrößerung des Suchraums beeinträchtigen diese Peaks unnötigerweise
die Leistung der Suchmaschine. Wir führen aus, dass die Algorithmen das Vertrauen in die
korrekte Identifikation von Peptiden durch das Entfernen von Peaks, vor allem aus den Bereichen
um die korrekten Fragment-Peaks, welche andernfalls das Finden dieser korrekten Peaks
erschweren würden, erhöht. Außerdem zeigen wir, dass diese Methoden nichtsdestotrotz durch
das Design der Scoring-Algorithmen verbreiteter Suchmaschinen eingeschränkt sind.
Zweitens entwickeln wir einen 3d-Peak-Picking Algorithmus, der sich im Bezug auf die Masse
der Peptide nicht allein auf die Infomation des einzelnen MS1-Spektrums verlässt, aus welchem
das Peptid zur Fragmentierung ausgewählt wurde. Es wird statt dessen zusätzlich das Elutionsprofil
des Peptids rekonstruiert, wobei viele Datenpaunkte erfasst werden, um einen statistisch
zuverlässigen Wert für die Masse zu erhalten. Somit ist es möglich die Information, die durch
die hohe Massengenauigkeit erreichbar ist voll und ganz zu nutzen. Unsere Experimente zeigen,
dass die Peptidmassen, welche aus den rekonstruierten 3d-Peaks berechnet wurden, im Vergleich
zu den vom Gerät zur Verfügung gestellten Massen, eine wesentlich höhere Präzision besitzen.
Darauf aufbauend zeigen wir zudem, dass diese hohe Präzision die Anzahl der identifizierten
Peptide, vor allem für strenge Suchtoleranzen, steigert.
Aus den entwickelten Algorithmen ist ein Plugin für ein kommerziell verfügbares Softwarepaket
(Proteome Discoverer von Thermo Fisher Scientific) entstanden, welches nun in der
Proteomikgruppe von Karl Mechtler eingesetzt wird. Zudem ist dieses Plugin kostenlos zum
Download verfügbar.


Electronic version of the publication:
http://publik.tuwien.ac.at/files/PubDat_212999.pdf


Created from the Publication Database of the Vienna University of Technology.