Bioinformatica


Aryo Cavenati Relazione di Biologia 21/02/2007

LABORATORIO DI BIOINFORMATICA

CENNI PRELIMINARI

La bioinformatica è una disciplina che affronta i problemi biologici e che li analizza e risolve con strumenti informatici. Essa costituisce dunque un tentativo di descrivere dal punto di vista numerico e statistico i fenomeni biologici.
La bioinformatica principalmente si occupa di:
• fornire modelli statistici validi per l’interpretazione dei dati provenienti da esperimenti di biologia molecolare e biochimica al fine di identificare tendenze e leggi numeriche.
• generare nuovi modelli e strumenti matematici per l’analisi di sequenze di DNA, RNA e proteine al fine di creare un corpus di conoscenze relative alla frequenza di sequenze rilevanti, la loro evoluzione ed eventuale funzione.
• organizzare le conoscenze acquisite a livello globale in basi di dati al fine di rendere tali dati accessibili a tutti, e ottimizzare il metodo di ricerca dei dati stessi per migliorarne l’accessibilità.
Questo ultimo punto è l’oggetto della prova che verrà successivamente descritta. Gli acidi nucleici sono le biomolecole interessate e di conseguenza DNA, RNA, e quindi il genoma sono parti che verranno prese in analisi.

Prima di iniziare, a partire dalla definizione è gia possibile individuare le conoscenze prerequisite:
• Biologia molecolare e biochimica
– Struttura e funzione delle biomolecole quali zuccheri, lipidi, proteine ed acidi nucleici.
• Minime conoscenze informatiche come navigazione in rete.
• Sufficiente conoscenza della lingua inglese.
A questo punto, la prima prova è la seguente:

LA PROVA

In questa prova, che si chiama Caccia al Gene”, si apprende un metodo con il quale è possibile risalire da un frammento di sequenza del genoma umano al gene a cui questo frammento appartiene e
ottenere informazioni dettagliate sul prodotto codificato dal gene stesso sui tessuti dove il gene è espresso.
La situazione iniziale(una finzione) è quella di un neonato che ha caratteristiche anomale: pelle di colorito giallo-pallido e urina puzzolente. Si parte con l’analisi del sangue:da questa si è riscontrato un accumulo di mRNA. Dopo unulteriore analisi si è potuto ottenere la sequenza dellmRNA accumulata(luracile è comunque simboleggiata da T di timina per minimizzare il numero di variabili da memorizzare da parte del computer).
Data questa sequenza, con l’aiuto di un computer dotato di una connessione internet si deve:
• Identificare il gene da cui la sequenza è stata data
• ottenere la sequenza del cDNA, ossia la copia a DNA dellmRNA;
• identificarne le principali caratteristiche e produrre una figura del cDNA con indicate le posizioni del codone di inizio della traduzione e dello stop codon.
• definire la struttura esone/introne del gene;
• identificare la regione cromosomica dove il gene è localizzato;
• ottenere informazioni sul profilo di espressione del gene.
Procediamo in questo modo:
1. Le ricerche verranno effettuate nelle banche dati:sono siti che contengono tutti i dati su tutte le conoscenze e risultati che si sono ottenuti lungo la storia della biologia. Una specifica banca dati, ovvero il National Center for Biotechnology Information (NCBI: permette di ottenere informazioni sulla sequenza nucleotidica, in particolare sulla sezione Nucleotide-nucleotide BLAST (blastn). Inserire quindi la sequenza sul campo search, impostare il parametro nr e cliccare sul pulsante BLAST (Figura 1). Con BLAST la ricerca viene indirizzata su un’altra pagina in cui è contenuto il codice della ricerca, e quindi cliccare su format.
2. A questo punto si ottiene varie informazioni e le varie possibili identità della sequenza. Il grafico (Figura2) mostra la posizione delle basi identificate ed il colore ne indica il numero. La tabella successiva riporta i risultati più completi della ricerca, dove ogni risultato possiede un codice. Lo score è il numero delle basi identificate invece lE-Value indica l’indice della casualità secondo la quale le sequenze possono trovarsi in natura. Si deve scegliere appunto il risultato indicato per homo sapiens, e con un codice che inizia per N, dove N sta per Natural, ovvero naturale: lmRNA infatti è ancora naturale ed intatta. Una volta individuato il risultato idoneo, cliccare sul codice.
3. La ricerca è a buon punto: adesso si hanno addirittura nomi di autori ed articoli che parlano sulla sequenza ricercata. Le informazioni più interessanti però si trova sulla Features: la source(sorgente) ci permette di conoscere il tipo e la posizione, ovvero mRNA di un homo sapiens e si trova nel cromosoma 12;vengono riportate anche le coordinate esatte. Le informazioni riportate su gene invece ci indicano anche il nome del gene in cui si trova la sequenza, ossia PAH. Sempre nella stessa parte ma più in basso abbiamo il codice di MIM (Mendelian Inheritance in Men) che ci conduce alla sezione del NCBI che contiene tutte le anomalie genetiche conosciute nell’uomo. Su questa nuova pagina è possibile conoscere ulteriori informazioni sul gene PAH, compresa la sua espressione, e quindi la malattia di cui soffre il neonato(Phenylketonuria). In fondo alla pagina precedente invece, si ha da copiare la disposizione della sequenza che ci serve per compiere la prossima operazione, ovvero la localizzazione dei codoni, esoni(ovvero parte codificante della sequenza) ed introni(parte non codificante). Questa operazione viene chiamata Blat. Normalmente quando lmRNA esce dal nucleo gli introni vengono scartati(il cosìdetto splicing). Visto che lmRNA presa in analisi è stata estratta artificialmente, allora gli introni sono ancora compresi, e il Blat è appunto uno strumento informatico che può sostituire in qualche modo lo splicing.
4. Il Blat, è effettuabile sul sito http://genome.ucsc.edu/cgi-bin/hgBlat?db=mm2, dove si deve incollare la disposizione di prima sul campo BLAT Search Genome. Ciccando poi sul pulsante submit, si ottengono diversi risultati. Si deve ora individuare quello giusto, ed è inconfondibile per la posizione del gene, ovvero il cromosoma su cui si trova. Adesso si può scegliere fra le due opzioni browser e details. Il browser conduce al grafico che mostra dove la sequenza viene conservata nelle varie razze animali, invece il details mostra dettagliatamente la posizione dei codoni, esoni ed introni.
5. Ultimo passo: andare sul sito http://www.genecards.org// e nel campo search scrivere PAH e cliccare go. E di nuovo ora trovare il risultato giusto: fra i dettagli ottenuti cliccare su 3D per avere la possibilità di avere ed elaborare la struttura tridimensionale del gene.

Per la seconda prova si procede allo stesso modo ma la sequenza è diversa. La seconda sequenza ha condotto ad una malattia che comunemente è chiamata epilessia.

FIGURA 1

FIGURA 2

figura 3