
Essa parte consiste de 3 etapas:
Vamos trabalhar com a enzima serine protease do vírus da dengue, a proteína "não estrutural 3", NS3. Essa enzima utiliza como cofator um trecho de outra proteína não estrutural codificada pelo vírus, a NS2b.
Vamos começar com a estrutura obtida por difração de raios-x, disponível no PDB com o código 3U1I, aqui. Nessa página você encontrará detalhes sobre a estrutura, os autores, e o link para o artigo original. No lado direito da página há uma imagem da enzima e, se você clicar em "3D View", abrirá um visualizados que lhe permite manipular a estrutura. Note que unidade assimétrica existente é um dímero, contendo duas unidades biológicas completas do complexo NS3/NS2b (cadeias A/B, C/D) e, em cada unidade, está ligada covalentemente uma molécula do inibidor peptídico Bz-nKRR-H (Cadeias E e F). A estrutura contém também moléculas de água e íons fosfato. Para os cálculos de dinâmica precisaremos apenas das coordenadas de uma unidade da enzima, de forma que precisamos eliminar toda a informação extra.
Por outro lado, é importante notar que a maioria das estruturas de raios-x não inclui átomos de hidrogênio, uma vez que sua densidade eletrônica é muito baixa para ser detectado no experimento. Além disso, unidades muito flexíveis também não são visíveis. Assim, será necessário adicionar essas informações ao arquivo pois a dinâmica molecular necessita das coordenadas de todos os átomos.
Para começar, o que precisamos é dos arquivos com as coordenadas (.pdb) e a sequência (.fasta). Você encontrará no lado direito da página, acima da estrutura, o link "Download Files" e, ao clicar nesse link, aparecerá uma lista com os diversos arquivos associados à essa proteína. Faça o download dos arquivos "FASTA Sequence" e "PDB File", e coloque-os em um diretório local.
Abra o arquivo PDB (3U1I.pdb) utilizando o editor de texto de sua preferência, e gaste alguns instantes observando a informação contida. Você encontrará informações sobre os autores, publicação, método utilizado, etc. Preste atenção especial para a existência do trecho "MISSING RESIDUES", que lista resíduos que não foram detectados no experimento. Vamos voltar à essa parte em instantes.
Como vamos trabalhar apenas com uma unidade, é conveniente separar o arquivo nos seus constituintes. No processo, vamos também remover quaisquer informação extra desnecessária. A série de comandos abaixo utiliza a ferramenta awk para separar o arquivo em seus constituintes:
$ awk '$1=="ATOM" {if ($5=="A") print}' 3U1I.pdb > ns3-A.pdb
$ awk '$1=="ATOM" {if ($5=="B") print}' 3U1I.pdb > ns3-B.pdb
$ awk '$1=="ATOM" {if ($5=="C") print}' 3U1I.pdb > ns3-C.pdb
$ awk '$1=="ATOM" {if ($5=="D") print}' 3U1I.pdb > ns3-D.pdb
$ awk '$1=="HETATM" {if ($5=="A") print}' 3U1I.pdb > ns3-A_HETATM.pdb
$ awk '$1=="HETATM" {if ($5=="B") print}' 3U1I.pdb > ns3-B_HETATM.pdb
$ awk '$1=="HETATM" {if ($5=="C") print}' 3U1I.pdb > ns3-C_HETATM.pdb
$ awk '$1=="HETATM" {if ($5=="D") print}' 3U1I.pdb > ns3-D_HETATM.pdb
$ awk '($1=="ATOM" || $1=="HETATM") {if ($5=="E") print}' 3U1I.pdb > ns3-E.pdb
$ awk '($1=="ATOM" || $1=="HETATM") {if ($5=="F") print}' 3U1I.pdb > ns3-F.pdb
Com esses comandos, voce deve ter criado arquivos pdb separados para cada cadeia. As cadeias A e C são o cofator, as cadeias B e D a NS3, e as cadeias E e F o inibidor. As unidades biológicas se agrupam como A/B/F e C/D/E. Além disso, moléculas de água e fosfato em cada cadeia foram também separadas nos arquivos "*-HETATM.pdb" e, caso necessário, poderemos recuperar essas informações facilmente.
Cadeia | Resíduos Faltando | ||
---|---|---|---|
A | 45 a 49 | 90 a 95 | |
B | -8 a -2 | 11 a 15 | 172 a 182 |
C | 45 a 49 | 90 a 95 | |
D | -8 a 1 | 10 a 14 | 172 a 182 |
E | 1 a 3 |
$ sed 's/ A / B /g' ns3-B_SM-orig.pdb > temp.pdb
$ grep ATOM temp.pdb > ns3-B_model.pdb
$ rm temp.pdb
$ tail -n 3 ns3-A.pdb
ATOM 308 OD1 ASP A 88 36.358 -30.531 -1.161 1.00 73.95 O
ATOM 309 OD2 ASP A 88 34.647 -29.254 -0.547 1.00 70.83 O
TER
$ cat ns3-A.pdb ns3-B_model.pdb > ns3ns2b.pdb
TER
END
Comments