close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Lecture 1: 1) What is bioinformatics/computational biology? (Folie 6

EinbettenHerunterladen
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 1
Lecture 1:
1) What is bioinformatics/computational biology? (Folie 6)
Was ist Bioinformatik/ rechnerbetonte Biologie?
• Schnittstelle zwischen Biologie und Computer
• Analyse von Proteinen, Genen und Genomen mit Hilfe von Computer-Algorithmen (=Verfahren,
Regeln) und Computer-Datenbanken
Die Werkzeuge der Bioinformatik werden benutzt um aus den Millionen Basenpaaren der DNA, die
beim Genomic Project sequenziert wurden, einen Nutzen zu ziehen (108 verschiedene Sequenzen in
der Datenbank)
2) What is genomics? (Folie 6, 7)
Was ist Genomforschung?
…. ist die Analyse von Genomen, aber sie bezieht auch experimentelle/auf Versuchen aufgebaute
Annäherungen ein, nicht nur Computer.
…. Studium der Struktur, Inhalt und Evolution von Genomen- die DNA in unseren Zellen
• Sequenzierung von Genomen
• Expression und Funktion von Genomen (wie Gene wechselwirken, wieso Leute mit demselben
Genom krank werden und andere nicht,….)
• Evolution der DNA
• Architektur des Genoms (Meiose, ist es strukturiert…)
• Große Datenbanken online öffentlich zugänglich
3) Why do we analyze the DNA sequences of genomes and not just the proteins or the phenotype?
Warum werden DNA-Sequenzen des Genoms analysiert und nicht die Proteine oder die
Phenotypen? (Folie 9 ff)
• Wir studieren DNA anstatt Proteinen, weil das Studium von Proteinen technisch sehr schwierig ist.
Es ist technisch sehr viel einfacher eine DNA zu sequenzieren, als zu versuchen ein Protein zu
charakterisieren. DNA ist leicht zugänglich, verfügbar und stabil – auch in Fossilen.
• Proteine haben eine bestimmte Lebensdauer.
• DNA hat viel mehr Infos als Proteine: Nicht-Protein-codierende Gene, Genomische DNA codiert
für mRNA, rRNA, tRNA oder iRNA. Genom besteht nur zu ~ 2% aus codierenden Genen (Exons)
und zu 98% aus nicht-codierenden Genen (Introns). Nicht codierende Regionen sind wichtig für
die Genexpression, Genregulation, wie die DNA an neue Generationen weitergegeben wird.
• Bei DNA sind verschiedene Splicing Varianten möglich.
Zusatzinfo:
Gesunde oder kranke Personen: welche Art von RNA wurde exprimiert?
Die meisten Gene sind still (silent). Wir haben diese Gene, aber wir wissen nicht, ob sie exprimiert
wurden oder nicht. Jede Zelle macht etwas anderes mit ihrer „Sammlung" – aufgrund dieser Tatsache
haben wir verschiedene Gewebe.
Proteine sind viel bessere Anzeichen von Phenotypen (wie wir aussehen)
Ein Phenotyp kann nur mittels Proteinen gefunden werden.
4) What kind of research questions can be addressed with genomics?
Welche Art von Forschungsfragen können mit Genomik angesprochen werden? (Folie 15)
• Aus genetischer Sicht: Progeria story
• Aus der systembiologischen Sicht: Minimales Genom: ausreichende/genügende Gene und
notwendig/erforderlich für synthetisches Leben
• Aus evolutionärer biologischer Sicht: Welche Gene machen uns zum Menschen?
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 2
5) What technological advances have made genomics possible?
Welche technologischen Fortschritte haben Genomik möglich? (Folie 6, 20)
• Um tausende von Genen zu studieren benötigt man: Computer, mathematische Algorithmen, und
Zugang zu den Servern (Datenbanken)-Internet
• Human Genome Project liefert hoch aufgelöste genetische Karte
• Sehr viele Menschen können gleichzeitig am Projekt arbeiten und Daten austauschen.
Lecture 2, Folie 2:
• Computer-Fähigkeiten
• Internet (vor 15 Jahren Gene Bank wurde in Disketten verteilt)
• automatisierte Erfassung Geräte-mehrere Arbeitsstationen in verschiedenen geografischen
Gebieten bearbeiten, analysieren und kommentieren die Daten
• Verwandtschafts-Datenbanken und objektorientierte Datenbanken-Kommunikation zwischen
Einträgen, ?retabulation? breiter Datenmenge
• SQL und PERL-schnelle und allgemeine Abfrage von Datenbanken
6) How was the cause for Progeria identified?
Wodurch wurde die Ursache von Progeria identifiziert? (Folie 17 ff)
Eltern mit einem erkrankten Kind baten um Hilfe.
Man versucht durch Vergleich von Genomen von gesunden und erkrankten Personen jene Gene zu
finden, die die Mutation auslösen. Human genom project (Entschlüsselung des menschlichen
Genoms) lieferte dafür wichtige Informationen.
Es wurden genetische Karten erstellt/ Gene abgebildet:
• Man versucht Mutationen mit in der Nähe liegenden phenotypischen/sichtbaren Merkmalen in
Verbindung zu bringen. (blaue Augen/krank; andere Augenfarbe/gesund). Die Anzahl wie oft ein
genetischer Marker durch Rekombination getrennt werden lässt Rückschlüsse auf genetische
Abstände zu (centiMorgans).
• Mit Hilfe von Stammbäumen versucht man die CoAufteilung von genetischen Markern, die mit phenotypischen
Ausprägungen der Krankheit verbunden sind, zu finden.
• Mit einem Entwurf der genetischen Kartierung lokalisiert
man abweichende Gene in der betreffenden Region. Man
nimmt und sequenziert nur die gewünschte Region der mRNA.
(Es ist schneller nur eine kleine Region zu sequenzieren als das
ganze Genom).
7) How can a minimal genome be built from synthetic components (synthetic biology)?
Wie kann ein minimales Genom aus synthetischen Komponenten (synthetische Biologie) gebaut
werden? (Folie 29ff)
• Das erste künstliche Genom wurde durch Kombination von 7kb Fragmenten in größere Fragmente
zusammengebaut.
• Kombination von Genominformation und rohen Chemikalien um einen „lebenden Organismus“ zu
konstruieren.
• Synthese von längeren Oligonukleotiden und Klonen und Zusammenschluss in größeren Kassetten
Gibson Assembly:
• Bestellung von synthetischen Fragmenten von einer Oligo Produktionsstätte
• Man gibt Ihnen eine Sequenz und sie senden einem ein doppeltstrangiges DNA-Fragment
(~ 500bp)
• Man verschmiltzt die Fragmente miteinander und kreiert das gewünschte Gen und danach das
Protein.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 3
8) How can the comparison of different primate genomes tell us what makes us human?
Wie kann der Vergleich verschiedener Primaten-Genome uns sagen, was uns zu Menschen macht?
(Folie 32)
…. Durch das Finden der Gene, die unverwechselbar für Menschen sind und uns unsere speziellen
Charakteristiken verleihen.
Man hat Schimpansengenom und Neanderthaler sequenziert je öfter Gene in verschiedenen
Spezies vorkommen, desto mehr sind diese Merkmale üblich. So kann man abwägen, was für eine Art
spezifisch ist.
600 Gene, die nur im menschlichen Genom vorkommen wurden identifiziert (Forkhead-box P2),
Sprachausbildung, Hörgene, Immunsystem, Gehirnentwicklung)
9) What are the main databases that can be found in NCBI?
Was sind die wichtigsten Datenbanken, die in NCBI gefunden werden kann? (Folie 41ff)
• OMIM (Online Mendelian Inheritance in Man)
• Map viewer
• BLAST (Basic Local Alignment Search Tools)
• Pubmed (links to literature)
• Entrez Nucleotide (Entrez data-mining tools)
• CGAP (Cancer Genome Anatomy Project)
• Genome annotation
• GenBank
• Tax Browser (Taxonomy)
• MMDB (Molecular Modelling Database)
10) What is an accession number? Was ist eine Zugangsnummer? (Folie 46, 47)
Eine Zugangsnummer ist eine Bezeichnung, die für die Identifizierung einer Sequenz verwendet wird.
Es ist eine Reihe von Buchstaben und/oder Nummern die einer molekularen Sequenz entsprechen.
DNA Sequenzen und andere molekulare Daten werden mit einer Zugangsnummer versehen, die für
die Identifizierung einer Sequenz oder anderer Aufzeichnungen, die relevant für molekulare Daten
sind, benutzt wird.
11) What is a reference sequence? What re common identifiers for reference sequences?
Was ist eine Referenz-Sequenz? Was identifiziert re gewöhnlich für Referenz-Sequenzen? (Folie 47)
RefSeq liefert eine fachmännisch geprüfte Zugangsnummer, die mit der stabilsten, vereinbarten
„Referenz“ Version einer Sequenz übereinstimmt.
RefSeq Kennungen umfassen die folgenden Formate:
Komplette(s) Genom/Chromosomen ………NC_#####
Genomic contig/genomic assemblie…….…NT_######
mRNA (DNA Format) ………………………….…..NM_#####
Protein ……………………………………………………NP_######
RefSeq wurden vom Computer sequenziert und dann meist durch eine Handsequenzierung bestätigt.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 4
12. What information can you retrieve in Gene (Entrez Gene)?
Welche Information kann man in Genen finden (Entrez Gene)? (Folie 50ff)
Entrez Gene ist eine vom National Center of Biotechnology Information (NCBI) betriebene
Metasuchmaschine, die den gleichzeitigen Zugriff auf mehrere Datenbanken und damit
weitgefächerte Suchen ermöglicht. Weiterhin bietet sie eine ganze Reihe von Tools zur Datenanalyse
und für spezielle Suchoperationen.
Infos, die man erhält z.B. die Refseq accessionnumber vom Protein, der mRNA und dem Gen und
auch die FASTASequenzen, die Lokalisierung und verwandte Sequenzen
Gene, Proteine, Chemicals
Genomische Regionen, Genomischer Kontext, Bibliography (Pubmed),
Phenotypen, Funktionen, RefSeq accession numbers…..
13. What is a FASTA sequence?
Was ist eine FASTA Sequenz? (Folie 57)
FASTA-Format: startet mit >
Vielseitig, kompakt, mit einer Überschriftszeile, gefolgt von einer Kette von Nukleotiden oder
Aminosäuren im ein-Buchstaben-Code.
Das FASTA-Format ist ein textbasiertes Format zur Darstellung und Speicherung der Primärstruktur
von Nukleinsäuren (Nukleinsäuresequenz) und Proteinen (Proteinsequenz) in der Bioinformatik. Die
Nukleinbasen bzw. Aminosäuren werden durch einen Ein-Buchstaben-Code dargestellt. Das Format
erlaubt es, den Sequenzen einen Namen und Kommentare voranzustellen. Eine Sequenz im FASTAFormat beginnt mit einer einzeiligen Beschreibung, dann folgen die Sequenzdaten.
14. What is an expression sequence tag? (Folie 58)
Expression Sequence Tags (EST) sind kurze DNASequenzen von meist 100–800 Basenpaaren Länge, die
durch die teilweise Sequenzierung von cDNAs von
deren 5'- oder 3'-Ende ausgehend gewonnen werden.
Da cDNAs durch die reverse Transkription von mRNA
erzeugt werden, stellen ESTs also einen Ausschnitt der
Sequenz von Genen dar, die im betrachteten
Lebewesen, Gewebe oder Zelltyp exprimiert werden,
also aktiv sind. ESTs gehen stets nur auf eine
Einzelsequenzierung zurück, wobei verschiedene
cDNAs sich unterschiedlich gut vervielfältigen und
sequenzieren lassen. Dies und der teilweise zufällige
Ansatz von EST-Gewinnungsverfahren führen dazu, dass ESTs Sequenzen relativ geringer
Verlässlichkeit darstellen. Da ESTs nur die Sequenzen reifer mRNAs darstellen, sind in ESTDatenbanken darüber hinaus Introns, Promotoren und andere regulatorisch wichtige Elemente von
Genen nicht vorhanden.
15. In which database do you find information about ESTs and EST profiles (levels of expression in
tissues, phathological states and development? (Folie 57)
UniGene ist eine Datenbank mit Informationen über wo im Körper, wann in der Entwicklung und wie
reichlich ein Transkript exprimiert wird.
16. What information do you get in HomoloGene? (Folie 57, 59)
Kurzgefasst:
HomoloGen ist bei NCBI zu finden und liefert Informationen über Homologien innerhalb und
zwischen verschiedenen Spezies. Somit dient es der Untersuchung von Verwandtschaften von Genen
und Proteinen. Die Ausgabe von HomoloGen bedient sich einer Baumstruktur, in welcher die
Organismen von höchster bis niedrigster Homologie/Orthologie sortiert werden. Der Grad der
Homologie wird vor allem anhand sogenannter konservierter Sequenzen festgelegt.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 5
Zusatzinfo:
HomoloGene sammelt praktischerweise Informationen über Gruppen von verwandten Proteinen.
HomoloGene ist ein Service des National Center for Biotechnology Information (NCBI), welcher
Informationen darüber gibt, ob und welche Homologien es für ein bestimmtes Gen in anderen Spezies
gibt. Man kann damit Verwandtschaften von Genen unterschiedlicher Arten analysieren, indem man
die Aminosäuresequenz eingibt. Diese wird zunächst mit Hilfe des BLASTp-Systems untersucht und in
Hinblick auf Homologie-Kriterien verglichen. Die Eingabesequenz wird dabei mit bereits bekannten
UniGene-Clustern abgeglichen.
Die Ausgabe von Homologene bedient sich einer Baumstruktur, in welcher die Organismen von
höchster bis niedrigster Homologie/Orthologie sortiert werden. Der Grad der Homologie wird vor
allem anhand sogenannter konservierter Sequenzen festgelegt. Homologene bedient sich hier der
cdart-Technologie, welche ebenfalls zu den BLAST-Tools gehört.
Zusätzlich zu bereits bekannten Genen werden mit Hilfe eines Algorithmus ortho- bzw. homologe
Abfolgen errechnet, welche wiederum mit den bei UniGene gespeicherten Nukleotidsequenzen
abgeglichen werden.
17. What is the taxonomy ID? When is it used? How do you find out the Taxonomy ID of a
particular organism or clade?
Was ist die Taxonomie ID? Wann wird es verwendet? Wie finden Sie das Taxonomy ID eines
bestimmten Organismus oder Stammes? (Folie 62, Report#1, Bsp. 1a)
• Die Taxonomie ID (TaxID oder Taxon Nummer) ist eine stabile eindeutige Kennung für jede
taxonomische Gruppe in der NCBI Taxonomy Browser. Sie wird verwendet um die Suche zu
beschränken.
• NCBI-Taxanomy: Enthält die Namen und phylogenetischen Abstammungslinien von mehr als
160.000 Organismen, die molekularen Daten in der NCBI-Datenbanken haben. Neue Taxa werden
der Taxonomie-Datenbank hinzugefügt, wenn Daten für sie hinterlegt sind.
• NCBI-homepage – linke Seite: Taxonomy anklicken – oben mittig: Taxonomy auswählen –
Organimusnamen hineinschreiben (eventuell Suche limitieren) und suchen. Organismus
auswählen und anklicken – Taxonomy-ID ist in erster Zeile unter Organismusnamen.
Taxonomy ID wird wenn man bei speziellen Spezien was sucht bzw. bei ausgestorbenen Spezien zur
Suchlimitierung verwendet.
18. Where do you find information about the number of identified polymorphisms in the genome
of a particular species? (siehe Report#1, Bsp. 1g)
NCBI–homepage – auf linker Seite „Variation“ auswählen – oben mittig nochmals „SNP“ auswählen
und im Feld daneben Spezies eingeben und auf suchen klicken.
Oder:
NCBI-homepage – auf linker Seite „Taxonomy“ auswählen – oben mittig nochmals „Taxonomy“
auswählen und im Feld daneben Spezies eingeben und auf suchen klicken – Speziesnamen nochmals
anklicken - auf rechter Seite in der Tabelle findet man SNP.
19. How can a nucleotide search be restricted to reference sequences only? Or to a certain
organism?
• NCBI-homepage – oben mittig “Nucleotide” auswählen, Suchbegriff eingeben und auf Suche
klicken. - Auf der rechten Seite auf RefSeq klicken. Oder unter Limits – source database: RefSeq
auswählen.
• unter Limits kann man Organismus auswählen
20. What database is used for literature searches? How can you restrict the searches? What
restrictions can you use?
Literatursuche mit Pubmed
Unter “Advanced Limits” kann man Suche einschränken.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 6
Mögliche Einschränkungen: Autoren, Datum, Journal,… siehe Bild unterhalb
21. Which database has a comprehensive description of genetic diseases and their associated
genes?
OMIM – Katalog von menschlichen Genen und genetischen Störrungen
Lecture 2:
1. What is the purpose of comparative genomics?
Comparative genomics is the study of the relationship of genome structure and function across
different species or strains.
Comparative genomics is an attempt to take advantage of the information provided by the signatures
of selection to understand the function and evolutionary processes that act on genomes.
Vergleichende Genomik ist die Untersuchung der Beziehung/Verwandtschaft der Genom-Struktur und
Funktion zwischen verschiedenen Spezies oder Stämmen.
Vergleichende Genomik ist ein Versuch Vorteile aus der Information zu ziehen, die durch die Signatur
der Selektion bereitgestellt wurden, um die Funktion und die evolutionären Prozesse zu verstehen, die
auf Genome einwirken.
2. What is the use of the genome sequence of model organisms?
A model organism is a non-human species that is extensively studied to understand particular
biological phenomena, with the expectation that discoveries made in the organism model will
provide insight into the workings of other organisms.
Model organisms are widely used to research human disease when human experimentation would
be unfeasible or unethical.
Ein Modell-Organismus ist eine nicht-menschlichen Spezies, die intensiv untersucht wird, um
bestimmte biologische Phänomene zu verstehen, mit der Erwartung, dass Entdeckungen im
Organismus-Modell gemacht werden die Einblick in die Funktionsweise anderer Organismen bieten.
Modell-Organismen werden häufig verwendet um menschliche Krankheiten zu erforschen, wenn
menschliches Experimentieren undurchführbar oder unethisch wäre.
3. Why are pig and dog genomics important?
Pigs are used as models for human hearts and cardiovascular systems. They are more similar to
humans than most animals.
Dogs are important respiratory and cardiovascular models.
Schweine werden als Modelle für menschliche Herz- und Herz-Kreislauf-Systeme verwendet. Sie sind
Menschen mehr ähnlich als die meisten Tiere.
Hunde sind wichtige Atemwegs-und Herz-Modelle.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 7
4. What kind of information can be gathered from microbial genomes?
• Sequence pathogens or infectious organisms
• Identify species specific genes that may be used to generate antigens for vaccination
• Understand life cycle for targets of drug design
• Evolution and distribution of the organism-epidemiology
• Find loci that affect parasite transmission
o Sequenz-Krankheitserreger oder infektiöse Organismen
o Identifizierung artspezifischer Gene, die verwendet werden, um Antigene zur Impfung zu erzeugen
o Verstehen des Lebenszykluses für gezielten Wirkstoff-Design
o Entwicklung und Verteilung der Organismus-Epidemiologie
o Zum Finden von Orten, die die Parasit Übertragung beeinflussen
5. What kind of information can gathered from Metagenomics?
• Sequence thousands of genomes from DNA extracted from the environment (Ocean water, soil,
intestinal flora)
• Identify organisms that cannot be cultured
o Sequenz von tausenden von Genomen von DNA aus der Umgebung (Ozeanwasser, Boden,
Darmflora) extrahiert
o Identifizierung von Organismen, die nicht kultiviert werden können
6. What are the different sequence types that are found in a genome?
•Genes
•Regulatory sequences
•Non-protein coding genes
•Repetitive sequences
•Segmental duplications
•Non-genic sequences
7. How are genes in a sequence identified?
•EST sequencing
•proof that a genomic fragment is transcribed
•AbInitioGene Discovery
•Computational inferences on genomic sequencesFinding
8. What is EST sequencing?
Wird genutzt um Gene zu identifizieren EST (= expressed sequences tag):
Bei der EST Sequenzierung wird mRNA mittels reverser Transcriptase in cDNA umgeschrieben,
welche sequenziert und anschließend mit der DNA verglichen wird. Oft liegt die cDNA bereits in
cDNA Datenbanken vor. Beim Vergleich mit der DNA kann festgestellt werden wo das zugehörige
Gen lokalisiert ist. (Vorsicht cDNA schaut nicht genauso aus wie DNA enthält z.B. keine Introns)
9. What is ab initio gene discovery? What elements does it use?
Mittels ab Initio gen discovery versucht man festzustellen welche Abschnitte der DNA Gene
darstellen. Dazu nutzt man computer-Algorithmen die folgende gen typischen Merkmale erkennen:
- Start und Stopp codon
- Bevorzugte codons spezieller organismen ( mehrere codons codieren für eine AS, in manchen
organismen wird jedoch eines der codons stark bevorzugt)
- Polyadenylierungs-signal
- Splice Signale
- Initiations Motive (Primer, andere regulatorischen DNA abschnitte)
Allerdings sind dies nur hinweise, ob die betreffende Region wirklich ein Gen darstellt muss erst
bewiesen werden z.B. gibt es dazu cDNA, kommen konservierte Domänen vor?
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 8
10. What information is obtained in Gene Ontology? What is the use of Gene Ontology?
In der Gen Ontologie geht es um die formale Darstellung Gene zu so zu bezeichnen dass ihre die
Funktion ihrer Proteine erkenntlich ist.
- Zellbiologische Funktion (Prozess in den das Protein involviert ist z.B. Zellwachstum
- Molekulare Funktion (biochemischer Prozess z.B. ist es ein Enzym)
- Zellkomponente in der sich das Protein aufhält z.B. ob es in der Zellmembran ist, im
Zellkern…
Der Nutzen ist eine weltweit einheitliche Darstellung von Genen.
11. How are regulatory sequences identified?
• Identification of candidate regulatory regions can be confirmed by binding nuclear extracts (gel
shift assays)
• Identifying short regulatory motifs
Look for motifs that are repeated in the genome
Look for candidate proteins that might recognize that motif
Test by Immuno-precipitation if motif is bound by predicted protein
12. What kinds of functional non-coding RNA have been identified?
1. tRNA (transfer RNA) ca. 500 classes
2. rRNA (ribosomal RNA) part of the ribosom -> 300-400 rDNA repeats
3. miRNA (mircro RNA and siRNA) -> belongs to iRNA (interference RNA)
4. other non-coding RNAs:
snoRNA (small nuleolar RNA)
U snRNA (splicosomal RNA)
other cryptic RNA (eg. Xist gene -> dosage
compensation (dient der Gendosiskompensierung
des2. x bei Frauen)
13. What is the biological function of a microRNA or iRNA?
short hairpin RNA, 21-23 nucleotides long
miRNA starts as mRNA but is not translated into proteins, but processed into a stem-loop and
transformed to a single stranded RNA
partial or fully complementary to one or more mRNAs
binds to 3´UTR (untranslatet region) of mRNA and functions in gene regulation either by
repressing translation or promoting mRNA degradation
14. What structural features are found in the genome?
1. repetitive sequences (classes of repetitive elements)
2. GC-content
3. simple sequence repeat (microsatellites and minisatellites)
4. segmental duplications
5. insertions, deletions, copy number variations (CNV)
6. structure of centromeres and telomeres
15. What types of repetitive sequences are found in the genome?
1. transposons
2. pseudogenes
3. simple repeats (2-100nt): microsatellites, short tandem repeats (VNTR)
4. segmental duplications (>300kb)+
5. ribosomal gene clusters, heterochromatin, telomeric and centromeric DNA
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 9
16. What are microsatellites? In what field are microsatellites paricular useful?
• kurze, nicht kodierende DNA-Sequenzen, die sich oft wiederholen, und das sogar meist am selben
Locus
• Mono-, di-, tri-, etc. nucleotides
• repeats of < 13 bases
• häufige Mutationsrate: kann Krankheiten verursachen, z.B. Huntington (ist eine trinucleotide
disease: > 36 CAT repeats) oder Ataxia
• Einsatz: Forensik und Schwangerschaftstests suchen nach Microsatelliten
17. What are CpG islands? Where in the genome are they found? What is their potential function?
• Regionen, die sehr reich an CG sind
• liegen vor Genen und verstärken deren Expression
18. What is a segmental duplication?
• 300 kb – 50 Mb
• very common: 3% of our sequence matches sequences at different genomic locations by 90%
identity
sehr häufig: 3% unserer Sequenz stimmen mit Sequenzen an unterschiedlichen genomischen
Standorten mit 90% Identität überein
• intrachromosomal und interchromosomal
• erlauben Genmodifikationen mit neuen Funktionen (evolutionäre Divergenz)
19. What is the structure of centromeres and telomeres?
• Heterochromatin: long, highly repetitive stretches of DNA
• includes transposonable elements, duplications, large chunk of mitochondrial DNA
• difficult to sequence, Telomere sind noch nicht sequenziert
20. What is a genome browser? What genome browser do you know?
• Genomic DNA is organized in chromosomes. Genome browsers display ideograms (pictures) of
chromosomes, with user-selected ―annotaƟon tracks‖ that display many kinds of informaƟon.
The two most essential human genome browsers are at Ensembl and UCSC. We will focus on
UCSC (but the two are equally important). The browser at NCBI is not commonly used.
Genomische DNA ist in Chromosomen organisiert. Genome Browser zeigen Ideogramme (Bilder)
von Chromosomen mit vom Benutzer ausgewählten - Annotation-Tracks an, die viele Arten von
Information darstellen. Die beiden wichtigsten menschlichen Genoms Browser sind bei Ensembl
und UCSC. Wir werden uns auf UCSC (aber die beiden sind gleich wichtig) konzentrieren. Der
Browser bei NCBI wird nicht häufig verwendet.
• Webtool and open source code for database construction and management
• NCBI, UCSC, Ensembl
21) In what genome browser can you correlate nucleotides with specific aminoacids in an
interactive way?
(21 und 22 sind im pdf von VO2 beschrieben, seite 27ff)
Use the CCDS database. Enter the GeneID directly into the CCDS browser or go to CCDS via the NCBI
browser:
Search for the gene with the NCBI browser click CCDS on the right (Related Information)
compare nucleotide and amino acid sequences
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
22) Where would you look up the exon –intron boundaries of a specific gene?
(steht im pdf von VO2, seite 27ff)
Use ensemble.org search for your gene click on the transcript you want to see
on the left to see the sequence Have fun with the sequence
Seite 10
click “exons”
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 11
23. What is a pairwise sequence alignment used for?
Pairwise alignment wird genutzt um 2 Sequenzen miteinander zu vergleichen und dadurch die
Ähnlichkeiten zwischen den Sequenzen herauszufinden und außerdem mögliche Homologen zu
finden. Man kann außerdem konservierte Sequenzen sehen.
24. Why are aminoacid sequences more informative of the biological similarity in an alignment
than nucleotide sequences?
Proteinsequenzen sind informativer als Nukleotidsequenzen, da man aus diesem Alignment
besser die strukturellen und funktionellen Ähnlichkeiten zwischen Proteinen sehen kann und
außerdem kann man gleiche Domänen und motifs in den Proteinen sehen. Dies ist besser da
man bei der Nukleotidesequenz darauf achten muss, dass mehrere Triplets für ein und
dieselbe Aminosäure codieren bzw. durch nur eine Abweichung in einer Base eine
vollkommene andere Aminosäure rauskommen kann.
25. What are homologs, paralogs, and othologs?
Homologe sind Sequenzen, bei denen die Ähnlichkeiten auf einen gemeinsamen Vorfahren
zurückzuführen ist.(Bsp. Beta globin und Myoglobin)
Paraloge sind homologe Sequenzen, die durch Genduplikation innerhalb einer einzigen Spezies
entstanden sind.(zB innerhalb der Beta-Globin-Gruppe beta-Globin und Delta-Globin)
Orthologe sind homologe Sequenzen in verschiedenen Spezies, die während der Artenbildung
aus einem gemeinsamen Vorgängergene entstanden sind und dadurch eventuell gleiche oder
andere Funktionen haben.
26. Which database can be used for a pairwise alignment?
BLAST kann hierfür verwendet werden, sowohl für Alignment von Nukleotidsequenzen als
auch für Aminosäuresequenzen.
27. What kind of information is obtained in a pairwise alignment?
Man erfährt inwiefern die Alignments ident(Identity)sind, wie viel Similarities/positives und
wie hoch die Konserviertheit(Conversation) ist. Wenn sich die Sequenzen sehr ähnlich sind dann
sind die 3 Parameter sehr hoch und wenn sie sehr verschieden sind dann sind sie sehr klein.
28) In a sequence alignment: What is the meaning of the Score, the E-value, the similarity and
identity?
(pairwise sequence alignment im pdf VO2, seite 39ff)
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 12
Score:
Calculation of alignment core:
the score is a sum of match, mismatch, gap creation, and gap extension scores
e-value:
The Expect value (E) is a parameter that describes the number of hits one can "expect" to see by
chance when searching a database of a particular size. It decreases exponentially as the Score (S) of
the match increases. Essentially, the E value describes the random background noise. For example,
an E value of 1 assigned to a hit can be interpreted as meaning that in a database of the current size
one might expect to see 1 match with a similar score simply by chance.
The lower the E-value, or the closer it is to zero, the more "significant" the match is. However, keep
in mind that virtually identical short alignments have relatively high E values. This is because the
calculation of the E value takes into account the length of the query sequence. These high E values
make sense because shorter sequences have a higher probability of occurring in the database purely
by chance. For more details please see the calculations in the BLAST Course.
The Expect value can also be used as a convenient way to create a significance threshold for
reporting results. You can change the Expect value threshold on most BLAST search pages. When the
Expect value is increased from the default value of 10, a larger list with more low-scoring hits can be
reported. (BLAST FAQ)
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 13
Similarity (Positives):
“The extent to which nucleotide or protein sequences are related. It is based upon identity plus
conservation.”
“42% similarity = 61/145 61 aa that are similar“
Conservation:
“Changes at a specific position of an amino acid or (less commonly, DNA) sequence that preserve the
physico-chemical properties of the original residue.”
Identity:
“The extent to which two (nucleotide or amino acid) sequences are invariant.”
“37/145 =26%; local alignment since the ends are not displayed”
29) What is the query coverage?
“The amount of the query sequence, expressed as percent, that overlaps the subject sequence.”
30) What is the purpose of a scoring matrix? How are gaps penalized?
Scoring matrix:
the BLOSUM (BLOcks SUbstitution Matrix) matrix is a substitution matrix used for sequence
alignment of proteins. BLOSUM matrices are used to score alignments between evolutionarily
divergent protein sequences. They are based on local alignments.
All BLOSUM matrices are based on observed alignments; they are not extrapolated from
comparisons of closely related proteins like the PAM Matrices.
Several sets of BLOSUM matrices exist using different alignment databases, named with numbers.
BLOSUM matrices with high numbers are designed for comparing closely related sequences, while
those with low numbers are designed for comparing distant related sequences. For example,
BLOSUM80 is used for less divergent alignments, and BLOSUM45 is used for more divergent
alignments. (Wikipedia)
Differences between PAM and BLOSUM
1. PAM matrices are based on an explicit evolutionary model (i.e. replacements are counted on
the branches of a phylogenetic tree), whereas the BLOSUM matrices are based on an implicit
model of evolution.
2. The PAM matrices are based on mutations observed throughout a global alignment, this
includes both highly conserved and highly mutable regions. The BLOSUM matrices are based
only on highly conserved regions in series of alignments forbidden to contain gaps.
3. The method used to count the replacements is different: unlike the PAM matrix, the
BLOSUM procedure uses groups of sequences within which not all mutations are counted the
same.
4. Higher numbers in the PAM matrix naming scheme denote larger evolutionary distance,
while larger numbers in the BLOSUM matrix naming scheme denote higher sequence
similarity and therefore smaller evolutionary distance. Example: PAM150 is used for more
distant sequences than PAM100; BLOSUM62 is used for closer sequences than BLOSUM50.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 14
Gaps:
• Positions at which a letter is paired with a null are called gaps.
• Gap scores are typically negative.
• Since a single mutational event may cause the insertion or deletion of more than one residue, the
presence of a gap is ascribed more significance than the length of the gap. Thus there are separate
penalties for gap creation and gap extension.
• In BLAST, it is rarely necessary to change gap values from the default.
First gap position scores -11
Second gap position scores -1
Gap creation tends to have a large negative score;
Gap extension involves a small penalty
31. What kind of scoring matrices can be used in an alignment?
BLOSUM 45/50/62/80/90
PAM 30/70/250
In which cases are they used?
The matrices are used to compare two or more protein sequences by alignment. The higher the
number of BLOSUM is the better is for close related protein sequences. For PAM it is the same
but the other way round.
What is the effect in an alignment to use different scoring matrices?
The effect of using different matrices is a change in numbers for the e-value, %idents,
%similarity, Score
32. What are dot blots?
Dot blots are a technique to detect biomolecules or to detect, analyze and identify proteins
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 15
Lecture 3:
1. What is genomic variation?
Genomic Variation is the variation in alleles of genes, occurring within and among populations
What types of genomic variation are there?
SNPs, Indels, Copy) number variants, mutations
2. What is a transition/transversion?
Transition: Point mutation where a base is substituted with a base of the same class
Purine <-> Purine
Transversion: Point mutation where a base is substituted with a base of the opposite class
Purine <->Pyrimidine
What are synonymous, missense, frameshift and non-sense mutations?
Synonymous M.: (silent substitution) Substitution of one base in an exon without any further
impact on the produced protein
Missense M.: Substitution of one base in an exon leading to a codon that codes for the wrong
amino acid -> wrong protein
Frameshift M.: Caused by indels (insertion or deletion) of a number of nucleotides in the DNA
sequence that is not divisible by 3
-> Change of the reading frame -> different translation than original
3. What is an allele, genotype, haplotype?
Allele: An Allele is one of a number of alternative forms of the same gene
Genotype: Represents the whole, exact and individual kind of genes of one organism
Haplotype: Combination of single nucleotides on a single chromosome
4. In which database would you find polymorphism data in the human population?
At the NSCI website there you can choose „SNP“ at „popular resources“.
5. What kind of search limits can you use in the database?
The organism, the chromosome, the chromosome range, the map weight, the function class, the SNP
class, the method class, the validation status, the variation allele, the annotation, the heterozygosity,
the success rate, the individual SNP, the minor allele frequence, the genome project, the
updated/created build ID and the global MAF
6. Where can you find information about the allele frequency and genotype frequencies of a
particular SNP in different human populations?
At the NSCI website there you can choose „SNP“ at „popular resources“, there you have to choose
your search limits and when have found SNP you want to research you have to click on it and scroll
down. There you can find „population diversity“.
7. How do you estimate the frequency of the heterozygotes form a given allele frequency?
At the NSCI website there you can choose „SNP“ at „popular resources“, activate the limits you need
and under the parameter „display settings“ you can choose „sorted by Heterozygosity“.
8. What are copy number variants? Why are copy number variants important?
Copy number variants refers to a form of structural variaton in the genome. It produces deviations of
the number of copys of a particular DNA fragment within a genome. (A gene could be in just one
copy or it could be in three or four copys, it can also be missing completely)
In case of copy number variants you can differ individuals from each other. The copy number variants
can also have an influence of the prädisposotion of diseases.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 16
9. Why are polymorphisms useful? What kind of biological phenomena can be studied with
polymorphic information?
- Single nucleotides polymorphysms können zb als genetische Markers verwendet werden, um bei
Untersuchungen von vererbten Krankheiten die Stelle einzugrenzen an der die Mutation am
Chromosom stattgefunden hat. (VO-Day3; 1Video 00:14:30 & 01:02:00)
- Ebenso für evolutionäre Forschung, weil zb Europäer, Afrikaner, Japaner in bestimmten
Phymorphysmen eindeutig unterscheiden. (VO-Day3; 1Video 01:02:00)
10. Are allele frequencies constant in a population? What forces/processes can change allele
frequencies?
- Es kommt auf die Größe der Population an, in kleinen Populationen können genetische Variationen,
die nur selten vorkommen aussterben, in großen weiter existieren. (VO-Day3; 1Video 01:17:00)
- Einen Einfluss auf das vorhanden sein von Genvariationen kann erfolgen durch zb Emigration
(Popularion Bottleneck) es wird mit einer ungleichen Verteilung gestartet. Oder Selektion, eine
Mutation erleichtert/behindert das überleben.
(VO-Day3; 1Video 01:18:00)
11. What is the HapMap project? How was it designed? What is the importance (uses) of HapMap?
- Mit dem HapMap Projekt sollten SNPs die mit einer Heufigkeit von mindestens 1% vorkommen.
- Dazu wurden 269 Individuen sequenziert, wobei darauf geachtet wurde, Europäer, Afrikaner,
Japaner, Chinesen zu finden, dessen Erbgut nur aus der eigenen Bevölkerung stammt. Also keine
Kreuzungen. (VO-Day3; 2Video 00:00:00)
- Durch das HapMap Projekt wurden genomische Markers festgelegt, man konnte sehen, wie sich das
menschliche Genom entwickelt hat, und man hat bei Rekombination bzw Crossover, dass es hotspots
gibt. (VO-Day3; 2Video 00:16:00)
12. How does genotyping using RFLP work?
- Es soll herausgefunden werben ob an einer bestimmten stelle der DNA ein AA homo- AC heterooder CC homozygote vorliegt.
- Für die RFLP ( Restriction fragment poymorphism) wird zuerst mit PCR die betroffene DNA
vervielfacht. Danach gibt man Restrektionsenzyme zu ,die die DNA genau an der mutierten Stelle
spaltet. Anhand der verwendeten Restrektionsenzyme und einer Auftrennung in der
Gelelektroforese kann man einen homo- oder heterozygote schließen. (VO-Day3; 2Video 00:24:00)
13. What is PCR? What components are necessary? How do you design primers for a PCR?
- PCR ist eine Methode, sehr schnell viele Kopien einer DNS Sequenz (zb 90Bp) herzustellen, man
muss aber mindestens die Sequenz von Anfang und Ende kennen. Von Anfang und Ende werden
Primes hergestellt (Primer 3Plus). Die DNA, ACTG Nukleotide, Primers, DNA polymerasen werden
zusammengemisch. Die Temperatur auf wird im ersten Zyklus auf 94°C erhöht, die DNA zerfällt in
Einzelstränge. Temperatur auf 60°C, die Primer binden an der DNS. 72°C, die DNS Polymerase
beginnt zu arbeiten. Temperatur auf 94°C, Doppelstrang DNA zerfällt. usw....
Herstellen eines Primers:
Ein Primer sollte ca 25Bp lag sein. Man muss die Sequenz kennen zb: TCGTA braucht als Primer die
komplementäre Abfolge: TACGA. Auf Primer 3Plus kann man sich einen optimalen Primer für Lage
und Temperatur ausgeben lassen. (VO-Day3; 2Video 00:28:00)
14. What is the function of BLAST?
BLAST (Basic Local Alignment Search Tool) finds regions of similarity between biological sequences.
The program compares nucleotide or protein sequences to sequence databases and calculates the
statistical significance of matches. BLAST can be used to infer functional and evolutionary
relationships between sequences as well as help identify members of gene families.
BLAST (Basic-Local Alignment Search Tool) findet ähnliche Regionen zwischen biologischen
Sequenzen. Das Programm vergleicht Nukleotid- oder Proteinsequenzen mit Sequenz-Datenbanken
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 17
und berechnet die statistische Signifikanz der Übereinstimmungen. BLAST kann verwendet werden um
funktionelle und evolutive Beziehungen zwischen Sequenzen abzuleiten sowie zur Identifizierung von
Gen-Familien-Mitglieder.
15. What are the steps of a BLAST search?
1. You need to choose which BLAST you use. (see the next question)
2. You need a Query sequence... a sequence of amino acids or nucleotides you want to match with a
database
2a. If you want to match two sequences, this is also possible if you have two Query sequences.
3. Then you can than adjust the algorithm or any other options (for example, only search in a specific
organism)
4. Then you start the Blast and you get the Results. E-value ; Query Cover ; Ident ; Total Score ; Max
Score
1. Sie müssen sich entscheiden, welche BLAST Sie verwenden. (siehe nächste Frage)
2. Sie benötigen einen Query-Sequenz ... eine Sequenz von Aminosäuren oder Nukleotiden, die Sie mit
einer Datenbank vergleichen/abgleichen wollen
2a. Wenn Sie zwei Sequenzen vergleichen wollen, ist dies auch möglich, wenn Sie zwei AbfrageSequenzen haben.
3. Dann können Sie die Algorithmen oder andere Optionen (zum Beispiel nur in einem bestimmten
Organismus zu suchen) einstellen
4. Dann starten Sie “Blast” und Sie erhalten die Ergebnisse. E-Wert; Abfrage Abdeckung; Ident;
Gesamtpunktzahl; Max Score
16. What kind of different BLAST programs are there? In which scenarios would you use each
BLAST program?
nucleotide blast: Search a nucleotide database using a nucleotide query
protein blast:
Search protein database using a protein query
blastx:
Search protein database using a translated nucleotide query
tblastn:
Search translated nucleotide database using a protein query
tblastx:
Search translated nucleotide database using a translated nucleotide query
primer Blast
Search for primers in a specific sequence, which you need for a PCR.
17. What kind of limits or optional parameters can be set on the BLAST searches?
You can choose different kinds of :
Search Set
databases
organisms
Program selection algorithms
General Parameters: Max target sequences;
Scoring Parameters
Matrix ( BLOSUMxx / PAMxx - Global and Local
Alignments); Compositional adjustments
Filters and Masking
18. What output information does BLAST results give?
E-value
number of hits one can "expect" to see by chance when searching a database of a
particular size.
Query Coverage The amount of the query sequence, expressed as a percent, that overlaps the
subject sequence
Ident
The extent to which two (nucleotide or amino acid) sequences have the same
residues at the same positions in an alignment.
Total Score
The total score of all HSP's from that database sequence.
Max Score
The score of the highest scoring HSP from that database sequence.
It shows you the alignment of the sequence with other sequences, where you can see the differences
and there location.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 18
E-Value
Anzahl der Treffer, die man durch Zufall "erwartet" zu sehen bei der Suche einer
database von einer bestimmten Größe.
Query Coverage die Größe (Anzahl) der Abfrage-Sequenz, in Prozent ausgedrückt, die die SubjektSequenz überschneidet
Ident
Das Ausmaß, in dem zwei (Nukleotid oder Aminosäure) Sequenzen die gleichen
Reste an den gleichen Positionen in einem Alignment haben.
Gesamtpunktzahl die Gesamtpunktzahl aller HSP ist aus dieser Datenbank-Sequenz.
Max Score
Auswertung der höchsten Punktzahl-HSP aus dieser Datenbank-Sequenz.
Es zeigt Ihnen das Alignment der Sequenz mit anderen Sequenzen, wo man die Unterschiede und gibt
Standort sehen kann.
19. What is the query coverage? Why is it important to examine the query coverage in a BLAST
result?
The query coverage is the percent of the query sequence that overlaps the subject sequence.
(Whereas the identity is the percent similarity between the query and subject sequences over the
length of the coverage area.)
It is important to examine the query coverage because it tells you how meaningful your identity is. If
there is a high identity but a low coverage, the examined sequence only overlaps a tiny part of the
compared sequence, but this overlap is very similar to the compared sequence at this special
location.
20. What is the Score and Expect (E-Value)?
The Expect value describes the number of hits one can ‘expect’ to see by chance when searching a
database of a particular size. It decreases exponentially as the Score (S) of the match increases.
Essentially, the E value describes the random background noise. For example, an E value of 1
assigned to a hit can be interpreted as meaning that in a database of the current size one might
expect to see 1 match with a similar score simply by chance. The lower the E-value, or the closer it is
to zero, the more ‘significant’ the match is.
21. How does an E-value help you interpreting the BLAST result? How does an E-Value change in
long or short matches? Which would you trust to be biologically more meaningful a short exact
alignment or a long alignment with several mismatches?
The e value gives you the information how meaningful a match is. A low e value means more
significance. If you align longer sequences the e value will be lower, thus the match will be more
significant. A long alignment with several mismatches is biologically more meaningful than a short
exact alignment, because the e value of a short match is higher than of a long alignment. This means
that the long alignment is more significant.
22. How can you change the output of a BLAST search to be above a certain E-value?
You can increase the “Expect Threshold” on the BLAST website under “algorithm parameters”.
23. Describe other BLAST like tools (like primer BLAST, MegaBLAST, BLAT, etc.) What can you do
with these tools?
MegaBLAST:
Is used to align long, closely related sequences.
Primer BLAST:
You can design primers and verify that your primers will not amplify another sequence in the
genome.
BLAT:
Blat is an alignment tool like BLAST, but it is structured differently. On DNA, Blat works by keeping an
index of an entire genome in memory. Thus, the target database of BLAT is not a set of GenBank
sequences, but instead an index derived from the assembly of the entire genome.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 19
Lecture 4:
1. What were the two strategies to sequence the human genome? What are the differences, what
the similarities?
Two strageties of Sequencing
Sanger and shotgun sequencing
Sanger
Shotgun
DNA needs to be amplified
DNA needs to be broken up randomly as the
sequence cannot be fully covered
A short sequence needs to be known for the
No primers needed
primer
easily applied to long strands of DNA including
Only for short strands 100-1000bp multiple
some entire genes
rounds needed
Sequencing errors especially in repetitive
sequences
Automated methode
This technique has been made easier by the
application of computer software for
arranging the overlapping pieces
sequences are done in order and there’s no
extensive computational power
puzzle to put back together. Minimal computing
power is required
Faste ras all sequences can be done at a time
2. What areas were developed in parallel with the human genome project?
Other areas:
• Genetic Mapping
• Bioinformatic Tools
• DNA Sequencing
• Ethical, Legal and Social Issues
• Model Organisms
Slide 6 in Lecture 4
3. What other sequencing projects were carried out in the before the human genome project was
finished?
Other Projects
• Personal Genome Project (PGP) in 2005 by Dr. George Church
Slide 25
4. Principles of Sanger Sequencing;
For Sanger Sequencing you need:
• Amplified single stranded DNA template, primers, dNTPs, ddNTPs (no 3’OH, flourescently
labelled)
• Process: (1) A primer is annealed to a sequence
(2) Reagents are added to the primer and template, including: DNA polymerase, dNTPs, and
one type of dideoxynucleotides (ddNTPs) labeled with fluorophores to each approach
(3) During primer elongation, the random insertion of a ddNTP instead of a dNTP terminates
synthesis of the chain because DNA polymerase cannot react with the missing hydroxyl. This
produces all possible lengths of chains.
(4) The products are separated on a single lane capillary gel, where the resulting bands are
read by a imaging system.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 20
5. How can Sanger sequencing be automated?
1. Automated Sanger Sequencing
via capillary elektrophoresis
machine (DNA Sequencer) to run the electrophoresis step and to monitor the different colors
as they come out SInce 2001 'capillary electrophoresis' is used, where the fragments are
piped through a tiny glass-fiber capillary during the electrophoresis step, and they come out
the far end in size-order
6. How can an unknown sequence be sequenced (how is the primer problem solved)?
An den DNA-Einzelstrang lagert sich der Primer an und die Nukleotide werden durch die DNAPolymerase angelagert. Neben den dNTPs sind auch ddNTPs vorhanden und diese werden auch an
den Strang gelagert. Wo ddNTPs angelagert werden, kann die Polymerase keine weiteren Nukleotide
hinzufügen und der Strang behält seine Länge. Die Reaktionen verlaufen in 4 verschiedenen Gefäßen
ab, in jedem Gefäß sind ddNTPs von nur einer Base. Wenn man nach der Reaktion die DNA-Stücke
durch die Elektrophorese nach der Größe aufteilt, kann man erkennen bei welcher Länge und somit
bei welcher Base der Abbruch stattgefunden hat.
Um das Problem mit den Primern zu lösen gibt man das zu sequenzierende DNA-Stück in einen
Vektor. Dieser kann in das Bakterium eingebracht werden und so wird es vervielfältigt. Weil die
Sequenz des Vektors bekannt ist, kann man einen Primer neben der eingefügten DNA wählen und
dort die Sequenzierung beginnen.
7. What is shotgun sequencing? (also known as pairwise end sequencing)
Es wird nicht das gesamte DNA-Fragment sequenziert, sondern nur beide Enden. Die sequenzierten
Teile können dann verglichen werden und durch sich überlappende Enden kann die gesamte DNASequenz entschlüsselt werden.
8. How can a sequence be reconstructed by sequencing only paired ends?
Durch sich überlappende Bereiche kann man die einzelnen Fragmente zusamenstellen. Ein großer
Vorteil beim shotgun sequencing ist, dass man die Orientierung zwischen den 2 Sequenzen kennt und
den Abstand.
9. What is hierarchical shotgun sequencing?
Es wird nicht das gesamte Genom sequenziert sondern nur ein kleinerer Teil (z.B. ein Chromosom).
Die genetische Einheit wird aus verschiedenen überlappenden klonierten Einzelfragmenten
rekonstruiert und die Einzelfragmente werden dann getrennt sequenziert.
10. What is coverage in the context of sequencing?
Für eine bestimmte Position in den sequenzierten Abschnitten ist der coverage die Anzahl der Reads,
die diese Position enthielten.
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 21
Mittlere coverage=NL/G
N… Anzahl an reads
L… Länge der reads
G… Länge des Genoms
11. What kind of problems can be encountered when sequencing repetitive regions with shot-gun
sequencing? How can repetitive regions be identified?
Problem beim Shotgun-Verfahren durch repetitive DNA:
5‘ …… (ATCGATCG)…… (ATCGATCG)….. (ATCGATCG)….3‘
Rep. DNA Sequenzen haben zu Folge, dass bei der Auswertung der Fragmente -welche ja
bei rep. DNA gleich sind -ein grober Fehler in der Rekonstruktion der DNA zustande
kommen kann.
Wenn man nämlich die entstandenen Fragmente der einzelnen rep. Sequenzen einer
einzigen Sequenz zuordnet wird die Länge des rekonstruierten DNA-Strangs verkürzt und
die Anordnung verfälscht!
Erkennen rep. DNA-Sequenzen:
• Erhöhter Anteil an gleichen Fragmenten!
Lösung: Algorithmische (statistische) Berechnung durch spezielle Programme
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 22
12. If humans have about the same number of genes than other animals, what could explain our
complexity?
• Obwohl die Anzahl der Chromosome ähnlich der vieler anderer Organismen ist , ist dennoch
das menschliche Proteom viel komplexer als das Set an Proteinen für welches Invertebraten
Genome codieren
• Vertebraten haben komplexere Protein Domän Architekturen
• Das menschliche Genom hat eine deutlich höhere Komlexität bei der Prozessierung von
mRNA ( Stichwort: Alternatives Splicing)
13. What were the main features discovered in the human genome?
• Es wurde herausgefunden , dass hunderte Gene von Bakterien stammen
(Stichwort: lateraler Gentransfer)
• 98% des Genoms codieren nicht für Gene (!)
• Mehr als 50% des Genoms besteht aus repetitiver DNA durch Transposons
( „interspersed repeats“)
o LINE (20%)
o SINE (13%)
o LTR retro- Transposons (8%)
o DANN Transposons (3%)
• häufig Segmentielle Duplikation!
• Mehr als 1,4 Mio.„single nucleotide polymorphisms“ (SNPs)
14. What is the 1000 Genomes Project?
Beim “1000 Genomes Projekt” wurden 1000 Genome in 2 Jahres sequenziert
• Dauer: 2008 – 2010
• Vorangetrieben durch internationale Unterstützung
• Intension des Projekts: Erstellen eines detaillierten Katalog über genetische Variation beim
Menschen (Europäer, Afrikaner, Asiaten, u.v.m.)
15. How can pesonal genoms be helpful in medicine?
Um Medikamente herzustellen die für den Patienten keine Nebenwirkungen haben. Ebenfalls
können Erkrankungen (Cholesterin) durch Inhibitatoren ohne Nebenwirkungen verabreicht werden.
Klinisch gezüchtete Organe, die keine Abstoßreaktionen mehr vom Körper hervorrufen (keine
Einnahme mehr von Immuninhibitatoren), können implantiert werden.
16. How has genomics impacted society and law? (Folie 28)
• Bluttests sind für verschiedene tödliche Krankheiten wie Chorea Huntington Krankheit, zystische
Fibrose, und Darmkrebs verfügbar
• Identifizierung von Genen, die körperliche Leistungsfähigkeit verbessern; Kandidatengene für
Intelligenz, Reaktionsgeschwindigkeit usw.
• Sollte Ihre genetische Information weitergegeben werden? Schutz gegen den Missbrauch der
genetischen Information (Versicherungen)
17. When is PSI-Blast more powerful than Blast?
Der PSI-Blast hat einen größeren Focus, der mit der Anzahl der Iterationen zusammenhängt und auf
Ähnlichkeiten des gesuchten Stoffes auf Funktion und Struktur Rücksicht nimmt.
18. How does PSI-Blast work? What is a specialized position-specific scoring matrix (PSSM)?
[1] Select a query and search it against a protein database
[2] PSI-BLAST constructs a multiple sequence alignmentthen creates a “profile” or specialized
position-specificscoring matrix (PSSM)
[3] The PSSM is used as a query against the database
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 23
[4] PSI-BLAST estimates statistical significance (E values)
[5] Repeat steps [3] and [4] iteratively, typically 5 times. At each new search, a new profile is used as
the query.
19. How can PSI-Blast results become corrupted with wrong hits? How can be corruption be
avioided?
PSI-BLAST is useful to detect weak but biologicallymeaningful relationships between proteins.
Source of false positives: amplification of not relatedsequences
Eg. a query with a coiled-coil motif maydetect thousands of other proteins with this motif
that are not homologous.
Once even a single spurious protein is includedin a PSI-BLAST search above threshold, it will notgo
away.
Corruption is defined as the presence of at least onefalse positive alignment with an E value < 10-4
after five iterations.
Three approaches to stopping corruption:
[1] Apply filtering of biased composition regions
[2] Adjust E value from 0.001 (default) to a lower value such as E = 0.0001
[3] Visually inspect the output from each iteration. Remove suspicious hits by unchecking the box.
20. When are multiple alignments useful?
Multiple alignments are useful if you want a collection of three or more protein (or nucleic acid). You
can find homologous residues in the aligned columns across the length of the sequences
You find residues that are homologous in an evolutionary sense or residues that are homologous in a
structural sense
Mehrere Alignments sind nützlich, wenn man eine Sammlung von drei oder mehreren Proteinen (oder
Nukleinsäuren) will. Man kann homologe Residuen in den ausgerichteten Spalten über die Länge der
Sequenzen finden.
Man findet Residuen, die homolog in einem evolutionären Sinn oder Residuen, die homolog in
struktureller Hinsicht sind.
21. What programs are useful to align multiple input sequences that you obtained from a
colleague?
f.e. Homologene at the NCBI homepage
22. What information can you retrieve in the conserved domain database?
You can find information about the domains you have in your protein. It tells you which conserved
domains (f.e globin or lipocallin ) your protein belongs. And it also shows you which amino acids are
part of your conserved domain.
Hier findet man Informationen über die Domänen, die man in seinem Protein hat. Hier erfährt man,
welche konservierte Domänen (Bsp Globin oder lipocallin) zum Protein gehören. Und es zeigt auch,
welche Aminosäuren Teil der konservierten Domäne sind.
Lecture 5:
1. Next generation sequencing:
2. Principles of next generation sequencing (NGS):
• Grundlage: Vervielfältigung von einzelnen DNA-Molekülen
• Entlang des zu sequenzierenden DNA-Stranges wird die komplementäre Sequenz
synthetisiert und der Einbau von erkennbaren Nukleotiden (Fluoreszierende!!!) auf Grund
der zeitlichen Abfolge der Einbauereignisse konstruiert
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 24
3. How does NGS work?
• DNA wird in einzelne Moleküle fragmentiert und mit Polymerase, Primer usw. in Gefäß
gegeben mittles PCR zu Kolonien vervielfältigt und in räumlicher Struktur angeordnet
• Paralleles Analysieren und aufarbeiten auf Grund der räumlichen Struktur möglich.
• Erkennung der Nukleotide auf Grund der unterschiedlichen Färbung der 4 Nukleotide
möglich
4. Comparison of NGS with traditional Sanger sequencing
• Wesentlich schneller und billiger
5. Applications (Anwendung) of NGS
• Komplette Genomanalyse
• Sequenzierung kleiner RNA´s
• Discovery of new polymorphisms
• Personalized medicine (discover mutations)
• Sequence tissues or cancers
• De novo sequencing of unsequenced genomes
• Exome sequencing
• RNA Seq
• Protein-DNA interactions
• Chromosome conformation
• Epigenetics
6. Why are proteins much better representatives of function than DNA?
Proteine verfügen über Primär, Sekundär, Tertiar und Qurtärstrukturen, welche wesentlich mehr
über die Funktion als nur über den Aufbau wie die Aminosäuresequenz bzw. DNA-Nukleotidabfolge
aussagen.
6. Why are Proteins much better representatives of function than DNA?
Beispiel: Myoglobin und Hämoglobin funktionell verwandt oder homolog
Dennoch ist die Nukleotidsequenz sehr abweichend; auch die lineare Aminosäuresequenz ist nicht
sehr ähnlich
Die 3D- Struktur ist ein guter Indikator für einer verwandte Funktion
Große Vorteile im Bereich der Kristallographie und Röntgenuntersuchung verbessern diesen Bereich
7. How are proteins analyzed? What large scale methods exist?
Durch 2-dimensionale Protein- Gele
1. Dimension: Isoelektrische Fokussierung
Verwendung eines Ampholyten um einen pH- Gradienten zu erzeugen
Es kann auch ein fertiger Streifen verwendet werden
Proteine wandern zu deren isoelektrischen Punkt ab
(pI) stoppen dann (Ladung=0)
Bereich von pI ist typischerweise zwischen 4 und 9 (meist 5-8)
2. Dimension: SDS- Page (=Polyacrylamid- Gelelektrophorese)
Proteine wandern durch eine Acrylamid- Matrix
Proteine sind geladen und wandern durch ein elektrisches Feld
Es können 100-1000 Proteine aufgelöst werden
8. What is a domain? What is a motif? What is the most common protein domain in humans?
Domain: Eine Region eines Proteins, die eine 3D- Struktur annehmen kann
Eine unabhängige strukturelle Einheit mit einem hydrophoben Kern
Domäne sind evolutionär verwandt
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 25
Proteine können eine oder mehrere Domäne teilen
Motif ( oder Fingerprint): eine kurze, erhaltene Region eines Proteins
Typischerweise aus 10-20 benachbarten Aminosäure- Resten
Meist vorhandene Protein- Domäne: Zincfinger domain; Immunoglobulin
9. What experimental methods are used to determine the 3D structure of a protein? Which one
has the highest resolution?
Methods: x- Ray crystallography, NMR und electron Microscopy
Die höchste Auflösung hat: X- Ray crystallography
10. What is resolution? With what resolution is it possible to observe individual atoms? What is the
R- value?
Resolution: Auflösungslevel eines Details das im Beugungsmuster dargestellt wird; kleinste messbare
Distanz zwischen 2 aufgelösten Objekten
Die Auflösung soll ~ 1 Å betragen
R- value: Maß zwischen simulierten Beugungsmustern und den experimentell- beobachteten
Beugungsmuster eines durch x- Ray crystallography entstandenen Bildes; sollte <0.2 sein;
11. What information can you find in the UniProt database?
You find information about the protein there. For example who long the sequence is where it is
located (ER, Golgi,…) in which organism, of how many amino acids/ chains the protein consists, which
secondery structure elements it contains…
12. With what tools can you visualize 3-D protein structures? What analysis can you do with these
tools?
F.e. Protein workshop, JMol, Webmol. You can find out which amino acids are part of your molecule,
where they are situated in your protein, you can only show acidic/basic/neutral amino acids. You can
rotate your molecule, change the colors, only show defined amino acids and you can also measure
the distance between two atoms.
What populations were genotyped in HapMap? (Lecture 3, Folie 20)
• 30 adult-and-both-parents trios from Ibadan, Nigeria (YRI)
• 30 trios of U.S. residents of northern and western European ancestry (CEU)
• 44 unrelated individuals from Tokyo, Japan (JPT)
• 45 unrelated Han Chinese Individuals from Beijing, China (CHB)
What happens with repetitive regions sequenced in shotgun sequencing? (Lecture 4, Folie 13)
Wiederholungen in der Eingabe DNA-Sequenz (repeats) sind problematisch, da in der Layout-Phase
die Fragmente die Stücke eines repeats enthalten, falsch angeordnet werden können. Es kann zu
einer Komprimierung der konstruierten Konsensussequenz kommen. Durch statistische Verfahren
(z.B. Poisson-Verteilung (Lander-Waterman Statistik)) können solche Stellen erkannt und gesondert
behandelt werden. (aus Wikipedia)
How can the frequency of heterozygotes and homozygotes in a population be estimated from an
allele frequency? Wie kann die Häufigkeit der Heterozygoten und Homozygoten in einer
Population von einem Allel Frequenz geschätzt werden? (Lecture 3, Folie 8)
Genotype-Frequenzen in einer Population stehen im Gleichgewicht (Hardy-Weinberg-Gleichgewicht).
p+q=1
p² + 2pq + q² = 1 (HW allele frequencies)
p ….. Allelfrequenz von Allel P
q ….. Allelfrequenz von Allel Q
p² …… Frequenz der Homozygoten mit Merkmal P
q² ….. Frequenz der Homozygoten mit Merkmal Q
Genome Data Analysis (LVA-Nr. 320.301)/WS 2013/ 2014
Lecturer: Assist. Prof. Irene Tiemann-Boege; Teaching Assistant: Yasmin Gravogl
Seite 26
2pq …. Frequenz der Heterozygoten (Merkmale P und Q)
Zusatzinfo:
Hardy-Weinberg-Gleichgewicht ist theoretisches Gedankenkonstrukt, dessen Voraussetzung keine
natürliche Population entsprechen kann. In realen Populationen herrschen permanent
Selektionsfaktoren vor, die eine Gleichverteilung der Allele unmöglich machen. Die fitteren Allele
werden nach einer längeren Zeit häufiger sein.
Document
Kategorie
Kunst und Fotos
Seitenansichten
8
Dateigröße
1 047 KB
Tags
1/--Seiten
melden