Em formação

A previsão de Rosetta ab initio e a adequação da interação proteína-proteína ajudam

A previsão de Rosetta ab initio e a adequação da interação proteína-proteína ajudam


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Eu projetei várias proteínas que prevejo ter interações com outra proteína usando o método de tríade conjoint baseado em sequência. Gostaria de saber quais são estruturalmente previstos para atracar e ter interações. Instalei o Rosetta e examinei um pouco os exemplos. Rosetta não tem muita documentação de "como fazer" sobre design de proteínas e seleção de aptidão. Alguém poderia me explicar o processo linha por linha de tomar um fasta com uma série de proteínas por meio da geração ab initio PDB da rosetta e, em seguida, como e onde procurar a adequação de cada interação / encaixe de proteínas? Também li em "Projeto de especificidade de interação proteína-proteína usando métodos computacionais e triagem de biblioteca experimental" página 91 que era possível gerar combinações de proteínas específicas que mapeiam para uma estrutura usando Rosetta. Como você faz isso? obrigada :)

O Rosetta commons links para suplementos de software adicionais, mas omite o Sparks-X crucial. Eu encontrei o Sparks-X nesta página da web. E descobri que o código para make_fragments.pl precisa ter muitas alterações feitas para funcionar corretamente. Vários arquivos estão listados em make_fragments.pl. Dois arquivos sem links pdb_seqres.txt e entries.idx são encontrados em RSCB, abaixo.

O banco de dados NCBI nr requer cerca de 100 GB de espaço livre para carregar e processar corretamente. Qualquer coisa menos do que isso resulta em erros.

make_fragments.pl requer um único gene em um arquivo fasta. vários genes no arquivo fasta fazem com que ele trave.

Psipred nolonger tem um dat4, então esta linha precisa em make_fragments precisa ter o dat4 removido.

"$ PSIPRED sstmp.mtx $ PSIPRED_DATA /pesos.dat $ PSIPRED_DATA / pesos.dat2 $ PSIPRED_DATA / pesos.dat3 $ PSIPRED_DATA / pesos.dat4> psipred_ss",

Meu make_fragments nem sempre termina, às vezes dá um erro

ERROR: Erro ao ler em FragmentPicker :: read_spine_x (): não corresponde ao tamanho da consulta!

Este erro foi causado por um ^ M no arquivo fasta removido com o vi.

Estou tentando ignorar o seletor de fragmento com o kit de ferramentas csrosetta de .csrosetta.org /

A versão libstdc ++ 6 de 32 bits deve ser usada para talos + Eu usei uma máquina Ubuntu de 32 bits para copiar o /usr/lib/libstdc++.so.6 e carreguei aqui. http://www.mediafire.com/?j0133qqwiilsuz1

cs-rosetta não cria fragmentos por motivo desconhecido. Mandei um e-mail para o criador e também para o suporte do rosetta commons. Por enquanto recomendo o servidor on-line roberta.

Existem exemplos de como usar o pré-empacotamento e encaixe em rosetta_tests.

O PPI pode ser projetado acoplando uma proteína a outra proteína e, em seguida, executando a tolerância de sequência. Embora o resfile não pareça ser capaz de limitar as alterações a certos nt neste ponto.

A tolerância de sequência tem um bug de rotamer extra e preenche a memória e o arquivo de página para certas proteínas se os sinalizadores da série "ex" forem usados. Ele também às vezes ignora o resfile, portanto, verifique os resultados iniciais dos scripts antes de iniciar um estudo multigeracional.

Ab initio relax tem um bug que o impede de rodar duas vezes no mesmo diretório. Remova default.out para executar novamente a previsão da estrutura.

O encaixe pode ser forçado a um local usando um arquivo de restrições, mas as opções radomize e spin devem ser desativadas para que funcione corretamente.

-constraints: cst_weight integer -constraints: cst_file cstfile

http://www.rosettacommons.org/manuals/archive/rosetta3.4_user_guide/de/d50/constraint_file.html

http://www.rcsb.org/pdb/static.do?p=general_information/about_pdb/summaries.html


Rosetta pode ser a chave para prever o dobramento de proteínas

12 de fevereiro de 2001 & mdash Um método computacional desenvolvido pelo investigador do Howard Hughes Medical Institute David A. Baker e seus colegas provou ser bastante bem-sucedido em prever a estrutura tridimensional de uma proteína dobrada a partir de sua sequência linear de aminoácidos.

Rosetta, o nome da técnica computacional desenvolvida por Baker e seus colegas da Universidade de Washington, mostrou notável sucesso na previsão da estrutura tridimensional das proteínas durante a quarta Avaliação Crítica de Técnicas para Predição da Estrutura de Proteínas (CASP4).

No experimento CASP4 (http://predictioncenter.llnl.gov/casp4), que começou em abril de 2000, mais de 100 grupos de pesquisa geraram estruturas tridimensionais para 40 proteínas candidatas. Uma proteína candidata, ou alvo, era considerada elegível para CASP4 se sua estrutura tridimensional tivesse sido deduzida por meio de análise estrutural, mas ainda não publicada por pesquisadores ou tornada pública em um banco de dados de estrutura de proteína. Cada grupo de pesquisa recebeu a sequência de aminoácidos das proteínas-alvo, e eles foram solicitados a desenvolver modelos tridimensionais das proteínas dobradas. Os resultados do CASP4 foram apresentados e discutidos em uma conferência em Asilomar, Califórnia, no início de dezembro.

Mesmo alguns anos atrás, diz Baker, o sucesso em prever como as proteínas assumem suas formas tridimensionais intrincadas era considerado altamente improvável se não houvesse nenhuma proteína relacionada de estrutura conhecida. Para aquelas proteínas cuja sequência se assemelha a uma proteína de estrutura conhecida, a estrutura tridimensional da proteína conhecida pode ser usada como um "modelo" para deduzir a estrutura desconhecida da proteína. No entanto, cerca de 60 por cento das sequências de proteínas decorrentes dos projetos de sequenciamento do genoma não têm homólogos de estrutura conhecida.

Apesar da falta de sucesso no passado, os pesquisadores perseguiram o problema de prever a estrutura tridimensional da proteína apenas a partir da sequência de aminoácidos - chamada de predição ab initio - porque é um dos problemas centrais da biologia molecular computacional. Recentemente, o problema adquiriu mais importância à medida que os esforços de sequenciamento de genes humanos forneceram aos pesquisadores grandes quantidades de dados brutos de sequência de genes.

"Um dos problemas com a previsão da estrutura é que é muito fácil produzir um programa que prevê corretamente a estrutura de uma proteína se você souber a estrutura correta com antecedência", disse Baker. "Ao desafiar os pesquisadores a produzir modelos antes de saber a resposta certa, os experimentos CASP forneceram um impulso inestimável para o campo."

O algoritmo de computador Rosetta para prever o enovelamento de proteínas baseia-se em estudos experimentais de enovelamento de proteínas do laboratório Baker & rsquos e muitos outros. "Durante a dobra, cada segmento local da corrente oscila entre um subconjunto diferente de conformações locais", disse Baker. "O dobramento para a estrutura nativa ocorre quando as conformações adotadas pelos segmentos locais e suas orientações relativas permitem o soterramento dos resíduos hidrofóbicos, o emparelhamento das fitas beta e outras características de baixa energia das estruturas de proteínas nativas. No algoritmo de Rosetta, a distribuição de as conformações observadas para cada segmento de sequência curta em estruturas de proteínas conhecidas são tomadas como uma aproximação do conjunto de conformações locais que o segmento de sequência teria durante o enovelamento. O programa então procura a combinação dessas conformações locais que têm a energia geral mais baixa. "

Os resultados relatados usando Rosetta na reunião CASP4 revelaram que um enorme progresso foi feito na previsão de estrutura ab initio, disse Baker. Por exemplo, há quatro anos, na reunião CASP2, havia poucas previsões de estrutura ab initio razoáveis, disse ele. "Em contraste, no experimento CASP4, a análise das estruturas previstas mostrou que para a maioria das proteínas sem homologia com proteínas de estrutura conhecida, tínhamos produzido modelos de baixa resolução razoáveis ​​para grandes fragmentos de até cerca de 90 aminoácidos.

"Curiosamente, algumas de nossas estruturas previstas eram bastante semelhantes às estruturas de proteínas que já haviam sido resolvidas e que acabaram por ter funções semelhantes às da proteína-alvo, embora não houvesse similaridade significativa de sequência. Assim, nossas estruturas previstas forneceram pistas sobre funções que não poderiam ser obtidas por métodos tradicionais de comparação de sequências ", disse Baker.

Peter Kollman, um especialista em modelagem molecular computacional na Universidade da Califórnia, em San Francisco, que participou do experimento CASP4, dá algumas perspectivas adicionais: "Os avaliadores das estruturas para as previsões ab initio deram dois pontos para uma estrutura que era ' entre as melhores, 'um ponto para uma estrutura que era' muito boa 'e zero se a estrutura estivesse razoavelmente longe da correta.

"O incrível é que o grupo de David Baker teve 31 pontos e o próximo melhor grupo teve 8 pontos. É como o beisebol em 1927, quando Babe Ruth fez 60 home runs e o segundo colocado fez 14 [e] alguns times não acertaram tantos quanto ele.

"No entanto, ainda há um caminho a percorrer para prever essas estruturas com precisão experimental", disse Kollman, "mas todos nós temos esperança de que isso também avance."

Baker concorda: "Embora essas estruturas tridimensionais não sejam detalhadas o suficiente, por exemplo, para o design de drogas com base na estrutura, elas podem fornecer informações valiosas sobre a função de proteínas desconhecidas", disse Baker. "Então, nosso objetivo é usar nosso método de predição de estrutura ab initio para produzir modelos tridimensionais para proteínas de função desconhecida. E usando esses modelos, podemos pesquisar o banco de dados de estruturas de proteínas para determinar se elas são semelhantes a proteínas de função conhecida A partir dessa semelhança, pode ser possível tirar inferências funcionais sobre o que essas proteínas fazem.

"Estamos muito entusiasmados agora em tentar fazer isso em grande escala, para fazer inferências funcionais para a grande fração de proteínas sobre as quais não podemos dizer nada no momento", disse Baker. "O poder desses métodos é que, uma vez que nenhuma informação é necessária além da sequência de aminoácidos, pode-se conceber como passar por um genoma e gerar estruturas e, possivelmente, percepções funcionais para cada proteína."


1. Introdução

O trabalho de proteína e design no meu grupo é realizado usando um programa de computador chamado Rosetta. No núcleo do Rosetta estão funções potenciais para calcular as energias das interações dentro e entre macromoléculas e métodos de otimização para encontrar a estrutura de energia mais baixa para uma sequência de aminoácidos (previsão da estrutura da proteína) ou uma proteína & # x02013 complexo de proteína e para encontrar a mais baixa sequência de aminoácidos de energia para uma proteína ou complexo de proteína & # x02013 (desenho de proteína). Tanto as funções potenciais quanto os algoritmos de busca estão sendo continuamente aprimorados com base no feedback dos testes de previsão e design (consulte o esquema na figura 1). Existem vantagens consideráveis ​​no desenvolvimento de um programa de computador para tratar esses problemas bastante diversos: primeiro, as diferentes aplicações fornecem testes muito complementares do modelo físico subjacente (a física / química física fundamental é, obviamente, a mesma em todos os casos) e, segundo, muitos problemas de interesse atual, como projeto de proteína de backbone flexível e proteína & # x02013 docking de proteína com flexibilidade de backbone envolvem uma combinação de diferentes métodos de otimização.

Diagrama esquemático da previsão da estrutura Rosetta e esforços de design.

Nas seções a seguir, resumirei o progresso recente e os destaques em cada uma das diferentes áreas e ilustrarei o desenvolvimento do modelo físico. Darei ênfase especial aos resultados de cada uma das áreas que sugerem que um progresso real está sendo feito na modelagem de alta resolução.

(a) Projeto da estrutura da proteína

Nos últimos anos, temos usado nosso método de design de proteína computacional para estabilizar dramaticamente várias proteínas pequenas, redesenhando completamente cada resíduo de suas sequências (Dantas et al. 2003), para redesenhar a conformação do esqueleto da proteína (Nauli et al. 2001), para converter uma proteína monomérica em um dímero trocado por fita (Kuhlman et al. 2002), e para termoestabilizar uma enzima (Korkegian et al. 2005). Um destaque foi o redesenho da via de dobramento da proteína G, uma pequena proteína contendo dois grampos de cabelo beta separados por uma hélice alfa. Na proteína de ocorrência natural, o primeiro grampo de cabelo é rompido e o segundo grampo de cabelo é formado na etapa de limitação de taxa no dobramento, mas em uma variante redesenhada em que o primeiro grampo de cabelo foi significativamente estabilizado e o segundo grampo de cabelo desestabilizado, a ordem dos eventos é invertida : o primeiro grampo de cabelo é formado e o segundo grampo de cabelo interrompido no estado de transição de dobramento (Nauli et al. 2002). A capacidade de redesenhar racionalmente as vias de dobramento de proteínas mostra que nossa compreensão dos determinantes do dobramento de proteínas avançou consideravelmente.

Particularmente empolgante mais recentemente é a conquista de um grande desafio de design de proteína computacional & # x02014 a criação de novas proteínas com estruturas tridimensionais escolhidas arbitrariamente. Desenvolvemos uma estratégia computacional geral para criar essas novas estruturas de proteína que incorpora flexibilidade de backbone total na otimização de sequência baseada em rotâmero. Isso foi conseguido integrando ab initio predição de estrutura de proteína, refinamento de energia de nível atômico e design de sequência em Rosetta. O procedimento foi usado para projetar uma proteína de 93 resíduos chamada Top7 com uma nova sequência e topologia. Top7 foi experimentalmente monomérico e dobrado, e a estrutura de cristal de raios-X de Top7 é surpreendentemente semelhante (r.m.s.d. = 1.2 & # x0200a & # x0212b) ao modelo de design (figura 2 Kuhlman et al. 2003). O design bem-sucedido de uma nova dobra de proteína globular e a correspondência muito próxima da estrutura cristalina com o modelo de design têm amplas implicações para o design da proteína e a previsão da estrutura da proteína, e abrem a porta para a exploração de grandes regiões do universo da proteína ainda não observada na natureza.

Comparação da estrutura de cristal de raios-X Top7 (vermelho) e modelo de design (azul). (uma) Sobreposição Calpha (b), detalhe de embalagem de sidechain no núcleo.

(b) Projeto de proteína & # x02013 interações de proteína

Para explorar a extensão desses métodos às interações proteína & # x02013proteína e, em particular, ao redesenho da especificidade da interação, escolhemos como sistema modelo o complexo de alta afinidade entre Colicina E7 Dnase e sua proteína de imunidade inibitória cognata. Novos pares de proteínas inibidoras de Dnase & # x02013 previstos para interagir fortemente entre si, mas não com as proteínas de tipo selvagem, foram gerados usando o modelo físico descrito acima e uma modificação de nossa estratégia de design computacional baseada em busca de rotâmero incorporando elementos de design positivo e negativo. A caracterização experimental demonstrou que os complexos de proteínas projetados têm afinidades sub-nanomolares, são funcionais e específicos na Vivo, e têm mais do que uma diferença de afinidade de ordem de magnitude entre pares cognatos e não cognatos em vitro (Kortemme et al. 2004). A abordagem deve ser aplicável ao projeto de pares de proteínas que interagem com novas especificidades para delinear e reengenharia de redes de interação de proteínas em células vivas.

Em colaboração com os grupos de pesquisa do Dr. Barry Stoddard e do Dr. Ray Monnat, geramos uma endonuclease artificial altamente específica, fundindo domínios de endonucleases I-DmoI e I-CreI por meio da otimização computacional de um novo domínio & # x02013 interface de domínio entre essas proteínas normalmente não interagentes . A enzima resultante, E-DreI (Engineered I-DmoI / I-CreI), se liga a um local alvo de DNA quimérico longo com afinidade nanomolar, clivando-o precisamente a uma taxa equivalente a seus pais naturais (Chevalier et al. 2002). Atualmente, estamos tentando desenvolver uma geração totalmente nova de novas endonucleases, redesenhando a interface de proteína & # x02013DNA usando uma extensão de nossa metodologia de design para proteínas & # x02013 interfaces de ácido nucléico (Havranek et al. 2004).

Em ambos os sistemas, foi possível determinar as estruturas de cristal de raios-X dos complexos projetados. Como no caso do Top7, as estruturas reais estão muito próximas dos modelos de design, o que é uma validação independente e importante da precisão de nossa abordagem para modelagem de alta resolução.

(c) Previsão da estrutura da proteína

A imagem do enovelamento de proteínas que motiva nossa abordagem para ab initio A predição da estrutura terciária da proteína é que as interações locais dependentes da sequência influenciam os segmentos da cadeia para amostrar conjuntos distintos de estruturas locais, e que as interações não locais selecionam as estruturas terciárias de energia livre mais baixa das muitas conformações compatíveis com essas polarizações locais. Na implementação da estratégia sugerida por esta imagem, usamos diferentes modelos para tratar as interações locais e não locais. Em vez de tentar um modelo físico para relações de estrutura de sequência local & # x02013, nos voltamos para o banco de dados de proteínas e tomamos a distribuição de estruturas locais adotadas por segmentos de sequência curta (menos de 10 resíduos de comprimento) em estruturas tridimensionais conhecidas como uma aproximação ao distribuição de estruturas amostradas por peptídeos isolados com as sequências correspondentes. As principais interações não locais consideradas são sepultamento hidrofóbico, eletrostática, ligação de hidrogênio da cadeia principal e volume excluído. Estruturas que são simultaneamente consistentes com as tendências de estrutura de sequência local e as interações não locais são geradas minimizando a energia de interação não local no espaço definido pelas distribuições de estrutura local usando recozimento simulado.

Rosetta foi testada nos experimentos bianuais de predição da estrutura da proteína CASP, nos quais os preditores são desafiados a fazer previsões cegas das estruturas das sequências cujas estruturas foram determinadas, mas ainda não publicadas. Desde CASP3 em 1998, Rosetta tem sido consistentemente o método de melhor desempenho para ab initio previsão, conforme pode ser verificado nos relatórios publicados dos avaliadores independentes. Por exemplo, Rosetta foi testado em 21 proteínas cujas estruturas foram determinadas, mas ainda não foram publicadas no experimento CASP4. As previsões para essas proteínas, que carecem de similaridade de sequência detectável com qualquer proteína com uma estrutura previamente determinada, foram de precisão e consistência sem precedentes (Bonneau et al. 2002). Excelentes previsões também foram feitas no experimento CASP5 (Bradley et al. 2003). Encorajados por esses resultados promissores, geramos modelos para todas as grandes famílias de proteínas com menos de 150 aminoácidos de comprimento (Bonneau et al. 2002). Para CASP6 (dezembro de 2004), desenvolvemos métodos aprimorados para previsão de proteína de folha beta, e também fiquei encantado que muitos dos outros grupos principais usaram o software Rosetta, que está disponível gratuitamente (código-fonte além de executável) no passado muitos anos.

Desde CASP4, estou convencido de que o progresso real na previsão da estrutura (ambos de novo previsão e modelagem comparativa) viriam apenas do progresso no refinamento de alta resolução. Embora as previsões do Rosetta no CASP tenham sido muito boas em uma escala relativa, elas foram ruins em uma escala absoluta, com a topologia aproximadamente correta em casos favoráveis ​​em pelo menos uma das cinco previsões enviadas, mas os detalhes de alta resolução na maior parte completamente errado. O refinamento desses modelos grosseiros é crítico para melhorar a precisão dos modelos e, talvez ainda mais criticamente, para melhorar sua confiabilidade. A estabilidade das proteínas em grande parte deriva do empacotamento complementar próximo das cadeias laterais no núcleo da proteína e, portanto, a avaliação da plausibilidade física de um modelo requer a modelagem dessas interações. Infelizmente, o empacotamento de sidechain complementar é interrompido por mudanças na conformação do backbone da magnitude dos erros em modelos típicos de baixa resolução do Rosetta. Portanto, um dos principais focos de nosso trabalho nos últimos 5 anos tem sido desenvolver métodos de refinamento de todos os átomos de alta resolução que podem conduzir a de novo modelos em direção à estrutura nativa e, assim, transformar nossas previsões de suposições de baixa resolução educadas para modelos de alta resolução confiáveis. Embora tenhamos conseguido fazer um progresso constante no problema de amostragem e na função de energia, o progresso mensurável em de novo o refinamento da previsão tem sido pequeno até recentemente. No entanto, os métodos aprimorados mostraram-se muito úteis para o design do Top7, descrito acima, onde foram críticos na etapa de otimização do backbone, e para o método de acoplamento de proteína & # x02013, descrito abaixo, que utiliza a mesma função de energia e muito da mesma metodologia de otimização.

Um destaque do CASP6 para mim foi o Target 281, o primeiro de novo previsão cega que utilizou nossa metodologia de refinamento de alta resolução para atingir uma precisão próxima à de alta resolução. Como a sequência era relativamente curta (76 resíduos), durante o CASP tivemos tempo de aplicar nossa metodologia de refinamento de todos os átomos não apenas para a sequência nativa, mas também para a sequência de muitos homólogos. O centro do aglomerado de estruturas de menor energia revelou-se notavelmente próximo à estrutura nativa (1.5 & # x0200a & # x0212b). O protocolo de refinamento de alta resolução diminuiu o r.m.s.d. de 2,2 a 1,5 & # x0200a & # x0212b e as cadeias laterais empacotam-se de uma maneira um tanto nativa no núcleo da proteína. Desde o verão passado, temos usado esse protocolo em várias outras proteínas muito pequenas e os resultados são muito promissores. Ainda há muito a fazer neste problema desafiador, e melhorar os métodos de refinamento continuará a ser o foco de nosso trabalho nos próximos 5 anos. Um problema muito concreto de considerável importância prática é o problema de refinamento de modelagem comparativa intimamente relacionado: para proteínas com similaridade de sequência a proteínas de estrutura conhecida, os modelos podem ser construídos essencialmente & # x02018 copiando & # x02019 as coordenadas do homólogo, mas a maioria dos esforços para melhorar nesta estrutura de modelo inicial falharam (tivemos algum sucesso recentemente usando informações evolutivas para guiar o Qian de amostragem et al. 2004). Portanto, os modelos comparativos normalmente não representam com precisão as características estruturais que diferem entre os homólogos, o que é uma deficiência séria que prejudica a previsão da especificidade da interação e outros usos dos modelos. Assim, à medida que desenvolvemos métodos aprimorados, iremos testá-los em ambos os de novo problema de refinamento de estrutura e o problema de modelagem comparativa. O objetivo é simples & # x02014 para ser capaz de produzir modelos suficientemente precisos com ou sem uma estrutura de modelo inicial para permitir insights biológicos baseados na estrutura sem a necessidade de determinação de estrutura experimental entediante e cara & # x02014 ou ainda mais simplesmente, para resolver o problema de dobramento de proteínas .

Nós estendemos a Roseta ab initio estratégia de previsão de estrutura para o problema de geração de modelos de proteínas usando dados experimentais limitados. Ao incorporar informações de mudança química e efeito Nuclear Overhouser (NOE) (Bowers et al. 2000) e, mais recentemente, informações de acoplamento dipolar (Rohl & # x00026 Baker 2002) no procedimento de geração de estrutura Rosetta, foi possível gerar modelos muito mais precisos do que com ab initio predição de estrutura sozinha ou usando os mesmos conjuntos de dados limitados com metodologia convencional de geração de estrutura de NMR. Um desenvolvimento recente empolgante é que o procedimento Rosetta também pode tirar vantagem dos dados de NMR não atribuídos e, portanto, contornar a etapa difícil e tediosa de atribuir espectros de NMR (Meiler et al. 2003).

A roseta ab initio método de previsão de estrutura, o método de determinação de estrutura NMR baseado em Rosetta e um novo método para modelagem comparativa (Rohl & # x00026 Baker 2003) que usa o Rosetta de novo abordagem de modelagem para modelar as partes de uma estrutura (principalmente loops longos) que não podem ser modelados com precisão com base em um modelo de estrutura homóloga, todos foram implementados em um servidor público chamado Robetta, que era um dos melhores servidores de previsão de estrutura totalmente automatizados no Testes CASP5 e CASP6 (Chivian et al. 2005) e tem um acúmulo constante de usuários em todo o mundo.

(d) Predição de proteína e # x02013 interações de proteína

Conforme descrito acima, temos trabalhado por vários anos no refinamento da estrutura da proteína, o que é desafiador devido ao grande número de graus de liberdade. Fiquei interessado na proteína & # x02013 problema de encaixe de proteína porque, com a aproximação de que os dois parceiros não sofrem mudanças conformacionais significativas durante o encaixe, o espaço a ser pesquisado é muito menor & # x02014 apenas os 6 graus de liberdade do corpo rígido além da cadeia lateral graus de liberdade e, portanto, parecia um bom trampolim para o difícil problema de refinamento da estrutura, embora sendo importante por si só.

Desenvolvemos um novo método para prever complexos de proteínas e # x02013proteínas a partir das coordenadas dos componentes monoméricos não ligados (Gray et al. 2003) que emprega uma pesquisa de Monte Carlo de corpo rígido de baixa resolução seguida por otimização simultânea de deslocamento de backbone e conformações de cadeia lateral com o procedimento de minimização de Monte Carlo e modelo físico usado em nosso trabalho de previsão de estrutura de alta resolução. A otimização simultânea dos graus de liberdade da cadeia lateral e do corpo rígido contrasta com a maioria das outras abordagens atuais que modelam o encaixe da proteína como um problema de correspondência da forma do corpo rígido com as cadeias laterais mantidas fixas. Recentemente, melhoramos ainda mais o método (RosettaDock) (Wang et al. 2005) desenvolvendo um algoritmo que permite a amostragem eficiente de conformações fora da cadeia lateral do rotâmero durante o acoplamento.

O poder do RosettaDock foi destacado no recente desafio cego da proteína CAPRI & # x02013 docking da proteína que foi realizado em dezembro de 2004. No CAPRI, os preditores recebem as estruturas de duas proteínas conhecidas por formarem um complexo e desafiados a prever a estrutura do complexo. As previsões do RosettaDock para alvos sem mudanças conformacionais de backbone significativas foram bastante impressionantes, como mostrado na figura 3. Não apenas as orientações do corpo rígido dos dois parceiros foram previstas quase perfeitamente, mas também quase todas as cadeias laterais da interface foram modeladas com muita precisão. É importante ressaltar que esses modelos corretos claramente se destacaram como tendo menos energia do que todos os outros modelos que geramos, o que sugere que a função potencial não está muito distante. Essas previsões foram qualitativamente melhores do que as previsões feitas usando métodos baseados em grade padrão que mantêm cadeias laterais de proteínas fixas durante o acoplamento.

Proteína CAPRI & # x02013 resultados de ancoragem de proteína. (uma) (i): Espectro de energia dos modelos gerados em cálculos de docking globais realizados antes do lançamento das estruturas experimentais (ii) paisagem de energia livre mapeada iniciando trajetórias nos pontos de energia mais baixos amostrados em execuções de docking globais. (b): comparação da orientação prevista (azul) do corpo rígido com a estrutura cristalina de raios-X (vermelho e amarelo). (c): close up da interface mostrando que, além da orientação do corpo rígido, também as conformações detalhadas das cadeias laterais foram previstas corretamente. Os modelos previstos são aqueles submetidos aos organizadores do CAPRI e são os modelos de menor energia encontrados nas pesquisas globais e locais mostradas no (uma).

Esses resultados muito promissores sugerem que o método pode em breve ser útil para gerar modelos de complexos biologicamente importantes a partir das estruturas dos componentes isolados, e mais geralmente sugerem que a modelagem de alta resolução de estruturas e interações está ao alcance. Um objetivo claro para nosso trabalho de previsão de estrutura monomérica é aproximar o nível de precisão desses modelos.


Predição ab initio da geometria de ligação peptídeo-MHC para diversos alotipos de MHC de classe I

Uma vez que determinar a estrutura cristalográfica de todos os complexos de peptídeo-MHC é inviável, uma previsão precisa da conformação é um problema computacional crítico. Esses modelos podem ser úteis para determinar a energética de ligação, predizer as estruturas de complexos ternários específicos com receptores de células T e projetar novas moléculas que interagem com esses complexos. As principais dificuldades são (1) amostragem adequada do grande número de graus de liberdade conformacionais para o peptídeo flexível, (2) prever mudanças sutis na geometria da interface MHC após a ligação e (3) construir modelos para numerosos alotipos MHC sem estruturas conhecidas . Enquanto estudos anteriores abordaram o problema de amostragem dividindo as variáveis ​​conformacionais em diferentes conjuntos e prevendo-as separadamente, refinamos o protocolo de acoplamento Monte Carlo de probabilidade tendenciosa em coordenadas internas para otimizar uma função de energia física para todas as variáveis ​​de peptídeo simultaneamente. Também imitamos o ajuste induzido por encaixe em uma representação de grade mais permissiva e suave do MHC, seguido por refinamento e remarcação usando um modelo MHC de todos os átomos. Nosso método foi testado por uma comparação dos resultados de cross-docking 14 peptídeos em HLA-A * 0201 e 9 peptídeos em H-2K b bem como peptídeos de acoplamento em modelos de homologia para cinco alotipos HLA diferentes com um conjunto abrangente de estruturas experimentais. A previsão surpreendentemente precisa (0,75 Å de backbone RMSD) para cross-docking de um decapeptídeo altamente flexível, diferente do peptídeo ligado original, bem como previsões de docking usando modelos de homologia para dois alótipos com baixa média de RMSDs de backbone de menos de 1,0 Å ilustram o eficácia do método. Finalmente, os termos de energia calculados usando as estruturas previstas foram combinados com o aprendizado supervisionado em um grande conjunto de dados para classificar os peptídeos como ligantes ou não ligantes HLA-A * 0201. Em contraste com os métodos de predição baseados em sequência, este modelo também foi capaz de prever a afinidade de ligação para peptídeos a um alótipo MHC diferente (H-2K b ), não usado para treinamento, com precisão de predição comparável. Proteins 2006. © 2006 Wiley-Liss, Inc.

Os materiais suplementares mencionados neste artigo podem ser encontrados em http://www.interscience.wiley.com/jpages/0887-3585/suppmat/

Nome do arquivo Descrição
jws-prot.20831.dat1.dat3 KB Ligantes A0201.
jws-prot.20831.dat2.dat3 KB A0201 não ligantes.
jws-prot.20831.dat3.dat250 B Ligantes Kb.
jws-prot.20831.dat4.dat250 B Kb não ligantes.

Observação: O editor não é responsável pelo conteúdo ou funcionalidade de qualquer informação de suporte fornecida pelos autores. Quaisquer dúvidas (que não sejam de conteúdo ausente) devem ser direcionadas ao autor correspondente do artigo.


RESUMO

Descrevemos aqui uma interface de servidor web fácil de usar para o protocolo Rosetta FlexPepDock para a modelagem de alta resolução de interações peptídeo-proteína. O FlexPepDock foi recentemente usado por nós para abordar com sucesso várias tarefas de modelagem do 'mundo real' (34–37) e esperamos que aumentar sua usabilidade por meio deste servidor da web abrirá a porta para uma ampla gama de novos sistemas e aplicativos.

Recentemente, estendemos o protocolo FlexPepDock e introduzimos o ‘FlexPepDock ab-initio ', Um protocolo poderoso para de novo dobramento e acoplamento de peptídeos em um local de ligação conhecido que não requer uma conformação de estrutura de base do peptídeo inicial. FlexPepDock ab initio teve um bom desempenho em uma referência de interações peptídeo-proteína (38). No entanto, este protocolo é caro do ponto de vista computacional e, portanto, ainda não está disponível no servidor da web. Ele pode ser baixado como parte do próximo lançamento do Rosetta.


4. Conclusões

InterPep2 applies structural templates for docking peptide fragments, using a random forest regressor to score plausible interaction models. Because InterPep2 is using a residue-order-independent structural alignment for positioning the peptide, it is not limited to use peptide–protein interaction templates, but can use any protein–protein interaction surface as template to model peptide–protein interaction complexes.

InterPep2-Refined achieves state-of-the-art performance on a large set of 251 bound peptide–protein complexes with up to 25 residues long peptides, placing the peptide within 4.0 Å LRMSD of its native conformation in 50 structures considering top10 predictions, and with the highest precision across all recall levels, for example at 50% recall the precision is 61.5% compared to 47.8% precision for the second best method. This performance is maintained when testing on a new set (PDB16–19) of 252 complexes from structures deposited after the complexes used in the construction of the InterPep2 training and template sets, for which 67 peptides were placed in the correct conformation.

On a frequently used dataset of 27 unbound-to-bound complexes InterPep2-Refined performed second-best, successfully placing the peptide within 4.0 Å LRMSD in 15 of 27 peptide conformations, and modeling it with an fnat of at least 0.6 in 13 of the 27, without the use of templates with similar sequence to the target. More interesting however, is that a method combining the template-based InterPep2-Refined with the ab initio method PIPER-FlexPepDock vastly outperformed both methods it was derived from, successfully generating models with the peptide within 4.0 Å LRMSD of its native position for 22 of the 27 complexes, with an fnat of at least 0.6 in 19 of the 27.


The Rosetta macromolecular modeling software is a versatile, rapidly developing set of tools that are now being routinely utilized to address state-of-the-art research challenges in academia and industrial research settings. A Rosetta Conference (RosettaCon) describing updates to the Rosetta source code is held annually. Every two years, a Rosetta Conference (RosettaCon) special collection describing the results presented at the annual conference by participating RosettaCommons labs is published by the Public Library of Science (PLOS). This is the introduction to the third RosettaCon 2014 Special Collection published by PLOS.

The Rosetta macromolecular modeling software is a versatile, rapidly developing set of tools that are now being routinely utilized to address state-of-the-art research challenges in academia and industrial research settings. The software is being co-developed by 44 laboratories from universities, government labs, and research centers in the United States, Europe, Asia, and Australia. The Rosetta software package is the result of a collaborative effort among these research institutions, building upon shared discoveries and free exchange of knowledge and software tools. Every institution with a participating laboratory is a member of an organization called RosettaCommons that facilitates code development and collaboration (http://www.rosettacommons.org). To enhance this collaborative development effort, RosettaCommons holds an annual conference in Leavenworth, WA, USA in the last week of July or the first week of August. Every two years, a Rosetta Conference (RosettaCon) special collection describing the results presented at the conference by participating RosettaCommons labs is published by the Public Library of Science (PLOS). As organizers of the 2014 Rosetta Conference, we are pleased to introduce the third RosettaCon 2014 Special Collection published by PLOS.

The applications of Rosetta software can be broadly divided into two themes–modeling or predicting structures of natural biological polymers [1,2], and the design of novel biomacromolecules [3,4] using, in some cases, an expanded alphabet that included non-natural sidechain and/or backbone functional groups [5,6]. These diverse applications, however, use the same underlying conceptual and software framework consisting of generating various conformations (sampling) of a molecule and scoring these conformations to identify optimal atomic-resolution arrangements (energy function). A crucial early insight was that both scoring and sampling techniques should ideally be independent of the problem under consideration and trained on experimental data [7]. Examples of these datasets include the distributions of protein backbone conformations or side chain rotamers seen in the Protein Databank [1,8], or the measured changes in free energies upon mutation in protein cores [9]. In this framework, the successes and failures of each structural modeling or design exercise provides valuable feedback for improving the underlying methods to iteratively recapitulate a greater proportion of experimental results. Therefore, reproducibility, verification and generalizability of new Rosetta computational algorithms is crucial.

A recent report extrapolates that fully 50% of biological research is not reproducible [10]. Accessibility of new techniques to an outside user can significantly impact reproducibility [11]. In principle, computational biology simulations should offer greater control over both accessibility and reproducibility compared to “wet” lab experiments, as the number of uncontrolled ingredients (reagents etc.) are lower. Yet in practice both reproducibility and accessibility can suffer. This is because academic labs often develop shortcuts and shorthand in day-to-day practice of a newly developed technique, and often omit to mention these little details in their publications, which, in turn, may contribute negatively to reproducibility. Additionally, the structural and design complexity of multi-purpose software such as Rosetta is high (currently at 2.7 million lines of code) and new software developments are usually made in academic laboratories by non-professional software developers who are focused on solving a specific científico problema. For example, the use of specific data structures that assume molecular connectivity corresponding to canonical L-amino acids can frustrate the extension of a structure prediction algorithm to non-canonical side chains or backbone groups.

One idea to achieve reproducibility and accessibility was explored in the previous Rosetta collections—Protocol Capture [12]. In a Protocol Capture, all individual steps in a newly developed protocol are listed as a step-by-step flowchart [13]. Input and expected output files, along with a reference to the code executable (or version number), are provided to the user. In this manner, the user can identify what was actually done in the simulation. This helps both scientific reproducibility (by reporting exactly what was done) as well as accessibility (by allowing non-specialists to reproduce the main findings of the work). However, the issues of laboratories using their shorthand and assumptions, as well as insufficient attention being paid to generalizability still remained. In this collection, we sought to address these issues by requiring an author from an external (but still RosettaCommons) laboratory to serve as a “tester”. This follows from the well-established practice in the software industry where testing and development are separate functions. For the Rosetta community, this approach provides the additional benefit that the external “tester” author, while being an expert in the general area, is sufficiently removed from the laboratory-specific jargon and project-specific scientific goals. Thus, the perspective of the tester author should increase the clarity of description as well as generalizability of the underlying code itself.

This year’s collection contains 12 papers published in PLOS One and PLOS Computational Biology. These papers characterize the diversity of modeling applications present in the Rosetta Macromolecular Code framework, including structure prediction, protein design, modeling of conformational states, and enzyme redesign. We have grouped the papers into four broad categories: structure prediction, membrane proteins, scientific benchmarks, and docking. Many of these categories are artificial, as some of the papers in the collection can fit into multiple categories. Nevertheless, they serve as a useful rubric for appreciating the depth and breadth of the Rosetta Macromolecular software package.

Protein Structure Prediction

The structural prediction of monomeric, soluble proteins is still an unsolved problem, notwithstanding notable recent advances. One important necessity in computational prediction protocols is reducing the high dimensional search space during simulations. An increasingly successful approach is the incorporation of structural restraints derived from phylogeny or low-resolution experiments𠄻oth approaches provide valuable but sparse and/or noisy information, and the challenge is to productively use these data. For example, Braun et al. demonstrate that evolutionary information on the protein fold can be discretized as residue-residue 𠇌ontact maps”, and that these can be combined with iterative sampling techniques for more accurate protein structure prediction [14]. In another example, Huber and colleagues show the integration of Rosetta with sparse EPR constraints to model conformational states in a model protein [15]. One technical issue that arises with the incorporation of multiple experimentally derived restraints is that individual sets are incompatible with each other, thus requiring manual intervention from the coder. To address this problem, Porter et al. developed a computational framework that simplifies combined sampling strategies in Rosetta [16]. They then demonstrated this powerful framework on a range of modeling problems, including domain insertion and ab initio structure prediction with multiple sets of experimental restraints.

Proteínas de Membrana

The design and modeling of membrane proteins is an emerging research area. Gray and colleagues present an integrated framework for membrane protein modeling and design [17]. In this work they showed application of the modeling framework to predict free energy changes upon mutation, high-resolution structural refinement, protein-protein docking, and assembly of symmetric protein complexes.

Docking

A significant issue limiting the success of both protein-protein and protein-small molecule docking is the large size and ruggedness of the search space. To efficiently sample conformational space, several approximations are made in the Rosetta approach: a low resolution Monte Carlo search, typically with a coarse-grained representation of the molecules and an approximate energy function, is first performed, followed by high resolution Monte Carlo refinement with atomic resolution [18]. In spite of these approximations, sampling remains computationally inefficient. Furthermore, the energy functions used in the high-resolution step, while being more accurate than the low-resolution step, are still built for speed over accuracy, and often suffer from incorrect modeling of interactions between polar groups, and protein with the solvent. More specifically, in the Rosetta high-resolution energy function, the balance of hydrogen bonding, electrostatics and desolvation forces is a known contributor to energy function inaccuracy [8,19]. It should be noted that the limitations in scoring and sampling are related𠄾nhanced sampling allows identification of false positive conformations, where as more accurate scoring increases ease of identification of true positive solutions by more efficient identification of more optimal basins. Several papers tackle the sampling and scoring issues in docking:

Zhang et al. show the application of replica exchange and other advance sampling techniques to increase the efficiency of Monte Carlo search during docking. Using a benchmark set of 20 protein-protein complexes, they identified an advanced sampling strategy showed better performance with equivalent computational resources. A new sampling approach was used by DeLuca et al. [20] to improve the accuracy and decrease the computational cost of the RosettaLigand docking protocol used in the prediction of protein-small molecule interactions [21]. For protein-small docking, the Karanicolas group report several significant improvements to a previously developed “ray casting” docking approach [22] used for the prediction of small molecules that disrupt protein-protein interactions [23]. Bazzoli et al. show that the use of two recent enhancements to the Rosetta energy function𠄾xplicitly including a Coulombic electrostatic term, and using a modified form of the implicit solvation potential�n markedly improve the ability to identify small-molecule inhibitors of protein-protein interactions [24].

Protein Multispecificity Design

The design of multi-specificity of proteins is important in applications ranging from structural vaccine design, bispecific antibody therapy, and combinatorial biocatalysis. Many computational design strategies rely on genetic algorithms, which are slow and limit search space. To address this problem, the Meiler group developed a new algorithm that can find multistate minima without reliance on techniques that limit search space like a fixed backbone approximation [25].

Scientific Benchmarks

Many of the above protocols were developed by evaluating performance against a benchmark set. Development of accessible, standard benchmarks for different end uses has the potential to increase the speed of method development, and aid reproducibility. For that reason, the Kortemme lab has developed a centralized web resource for standardized benchmark datasets (https://kortemmelab.ucsf.edu/benchmarks) [26]. This web resource includes analysis scripts, Rosetta commandlines, and tutorials for the given benchmark. There are three main sets of benchmarks in this resource: tests estimating the energetic effects upon mutation, tests for structure prediction, and ones for protein design. As a further example of the utility of benchmark sets, Ollikainen et al. developed a benchmark in order to test different protein design protocols on the re-design of enzyme substrate specificity [27]. They then showed that a protocol coupling backbone with side-chain flexibility improves prediction of sequence recovery over a competing fixed backbone approach.

Taken together, the articles in this collection highlight the utility of the Rosetta approach in tackling wide-ranging problems in biomolecular modeling and design using a common platform that allows the accessible and reproducible re-utilization of software. The common framework also provides an inherent feedback loop where new algorithms for sampling and scoring can be widely utilized and benchmarked for diverse scientific problems, in the process highlighting limitations of the approaches and areas where further developments are needed. We hope that through this collection readers will get a taste of the excitement and the unity in diversity that we enjoyed at RosettaCon 2014!


Protein Loop Modeling

Loop modeling is a complex and central element of protein structure prediction and design. There are two typical biological problems:

  • modeling loops into regions of low electron density in crystal structures
  • modeling loops into regions of low homology or with no secondary structure in homology models There exist a variety of tools for approaching these tasks. For an overview of loop modeling in Rosetta, please see this.

Modeling Loops in Regions of Low Electron Density

For explicit refinement of crystallography data, see here.

loops from density is a script to take badly fit electron data and a cutoff suggesting how much of the pose you're willing to rebuild and to generate input "loops" files for loop modeling.

For modeling of missing loops on existent protein structures, you can use any of the methods in the section below.

Modeling Loops in Regions of Low Homology or with No Secondary Structure

What if I am building a homology model and there are regions with low homology or no predicted secondary structure? These are the typical problems solved by loop modeling algorithms. Most loop modeling algorithms in Rosetta are contained within a single executable and run by setting different flags. The fastest, but least accurate method is cyclic coordinate descent (CCD). CCD closes a loop by iteratively solving for phi/psi angles which position the mobile terminus closer to the target anchor after fragment insertion. CCD is generally not recommended but can be used in specific cases (e.g. when time is a limiting factor). The currently (June 10th, 2015) accepted method of loop modeling is next-generation KIC (NGK). KIC sampling can be enhanced/concerted with fragments (KIC with fragments). There also exists an alternative, Monte Carlo stepwise, loop modeling method which can be applied to proteins and RNA. Unfortunately, stepwise loop modeling (for proteins and RNA) tends to be slow.

What if I am modeling a protein with a disordered region?

You probably should not be doing this using Rosetta, if at all. Disordered proteins are dynamic in the context of a cell. It is unlikely that any static, em sílico, model of a disordered protein or protein region will be very accurate. Rosetta's scorefunctions are parameterized on crystallized proteins, not disordered proteins. However, if you have a specific question, such as "can my disordered tail of 20 residues plausibly interact with this other region of my protein?" Then you may begin to approach this question with FloppyTail.


Protein Structure Prediction: Conventional and Deep Learning Perspectives

Protein structure prediction is a way to bridge the sequence-structure gap, one of the main challenges in computational biology and chemistry. Predicting any protein's accurate structure is of paramount importance for the scientific community, as these structures govern their function. Moreover, this is one of the complicated optimization problems that computational biologists have ever faced. Experimental protein structure determination methods include X-ray crystallography, Nuclear Magnetic Resonance Spectroscopy and Electron Microscopy. All of these are tedious and time-consuming procedures that require expertise. To make the process less cumbersome, scientists use predictive tools as part of computational methods, using data consolidated in the protein repositories. In recent years, machine learning approaches have raised the interest of the structure prediction community. Most of the machine learning approaches for protein structure prediction are centred on co-evolution based methods. The accuracy of these approaches depends on the number of homologous protein sequences available in the databases. The prediction problem becomes challenging for many proteins, especially those without enough sequence homologs. Deep learning methods allow for the extraction of intricate features from protein sequence data without making any intuitions. Accurately predicted protein structures are employed for drug discovery, antibody designs, understanding protein–protein interactions, and interactions with other molecules. This article provides a review of conventional and deep learning approaches in protein structure prediction. We conclude this review by outlining a few publicly available datasets and deep learning architectures currently employed for protein structure prediction tasks.

Esta é uma prévia do conteúdo da assinatura, acesso através de sua instituição.


CONCLUSÃO

We report recent advancements made to the online COFACTOR server for hybrid protein function annotations. In general, the biological function of a protein can be intricate and often contains multiple levels of categorizations. The COFACTOR server focuses on the three most widely-used and computationally amenable categories of function: GO, EC number and ligand-binding sites. Compared with the previous version of COFACTOR, which generated function annotations purely based on structural homology transfer, the updated server introduced several new pipelines built on sequence profile and PPI network information to enhance the accuracy and coverage of the structure-based function predictions. Accordingly, new sources of function templates, including sequence homologs and PPI partners, have been incorporated into the default function library (BioLiP) of the COFACTOR server. Our large-scale benchmark tests have shown that the new composite pipelines can generate function predictions with accuracy outperforming the former version of COFACTOR, as well as many state-of-the-art methods in the literature.

To facilitate the use and interpretation of the prediction results, a confidence scoring system has been introduced (as calibrated in Figure 2), which can help users to quantitatively estimate the accuracy of the predictions. Meanwhile, new DAG combined with animation software are introduced to facilitate the viewing, analysis and manipulation of the prediction models. These developments and updates significantly enhance the accuracy and usability of an already widely applied structure function service system and will make it continue to be a powerful tool, powered by new state of the art algorithms, both for rapid annotation of uncharacterized proteins and for providing a starting point to understand and further characterize targets that may be identified in high-throughput experimental studies.


Assista o vídeo: Proteína F (Fevereiro 2023).