Em formação

Abra bancos de dados para variações de número de cópias semelhantes ao TCGA

Abra bancos de dados para variações de número de cópias semelhantes ao TCGA


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

O Cancer Genome Atlas (TCGA) possui dados abertos para variação do número de cópias (CNV) de pelo menos 10 mil pacientes com câncer diferentes. Eles oferecem dois tipos de dados, dados CNV de tumor e dados CNV de amostras de tecido normal. Existe algum outro banco de dados aberto que ofereça dados CNV de pelo menos um tipo de câncer?


O ICGC possui dados CNV para muitos tipos diferentes de câncer. Ele tem muitos conjuntos de dados restritos e abertos. A página de lançamentos do DCC permitirá que você os procure - aqueles que são públicos são facilmente baixados. Eles também têm expressão combinada, SNV, metilação de DNA e dados de mutação estrutural para muitas amostras.


CODEX2: detecção de variação do número de cópias de espectro total por sequenciamento de DNA de alto rendimento

O sequenciamento de DNA de alto rendimento permite a detecção de variações do número de cópias (CNVs) na escala de todo o genoma com resolução mais precisa em comparação com métodos baseados em array, mas sofre de vieses e artefatos que levam a descobertas falsas e baixa sensibilidade. Descrevemos CODEX2, como uma estrutura estatística para perfil de CNV de espectro completo que é sensível para variantes com frequências populacionais comuns e raras e que é aplicável a projetos de estudo com e sem amostras de controle negativo. Demonstramos e avaliamos o CODEX2 em dados de exoma completo e sequenciamento direcionado, onde os vieses são os mais proeminentes. O CODEX2 supera os métodos existentes e, em particular, melhora significativamente a sensibilidade para CNVs comuns.


Abra bancos de dados para variações de número de cópias semelhantes ao TCGA - Biologia

Variação da sequência genômica

http://www.1000genomes.org/
Coleta de dados e um catálogo de variação humana

dbVar e banco de dados de variantes genômicas

Herança Mendeliana Online no Homem

http://www.omim.org/about
OMIM é um compêndio abrangente e confiável de genes humanos e fenótipos genéticos que está disponível gratuitamente e é atualizado diariamente. As visões gerais referenciadas em texto completo no OMIM contêm informações sobre todos os distúrbios mendelianos conhecidos e mais de 12.000 genes. OMIM se concentra na relação entre fenótipo e genótipo. Ele é atualizado diariamente e as entradas contêm links abundantes para outros recursos genéticos.

Exome Aggregation Consortium (ExAC)

http://exac.broadinstitute.org/
O ExAC é uma coalizão de pesquisadores que buscam agregar e harmonizar dados de sequenciamento de exoma de uma variedade de projetos de sequenciamento em grande escala e disponibilizar dados resumidos para a comunidade científica em geral. O conjunto de dados fornecido neste site abrange 61.486 indivíduos não aparentados, sequenciados como parte de vários estudos genéticos populacionais e de doenças específicas. Removemos indivíduos afetados por doenças pediátricas graves, portanto, este conjunto de dados deve servir como um conjunto de referência útil de frequências de alelos para estudos de doenças graves. Todos os dados brutos desses projetos foram reprocessados ​​por meio do mesmo pipeline e chamados de variantes em conjunto para aumentar a consistência entre os projetos.

Projeto Encyclopedia Of DNA Elements (ENCODE)

http://encodeproject.org/
Links para dados de marca de histona processados ​​uniformemente em ENCODE2: https://sites.google.com/site/anshulkundaje/projects/encodehistonemods
Links para outros dados ENCODE2 processados ​​uniformemente: http://genome.ucsc.edu/ENCODE/downloads.html
Coleta de dados, análise integrativa e um catálogo abrangente de
todos os elementos funcionais baseados em sequência

Roadmap Epigenomics Project (NIH Common Fund)

Consórcio Internacional de Epigenoma Humano (IHEC)

http://www.ihec-epigenomes.org/
Coleta de dados e mapas de referência de epigenomas humanos para chaves
estados celulares relevantes para a saúde e doenças

### Human BodyMap visível com Ensemble (http://www.ensembl.org/index.html) ou o
Visualizador de Genômica Integrada (http://www.broadinstitute.org/igv/)
Banco de dados de expressão gênica da Illumina, a partir de dados de RNA-seq

### Cancer CellLine Encyclopedia (CCLE) http://www.broadinstitute.org/ccle/home
Dados de expressão baseados em matriz, CNV, mutações, perturbações sobre uma enorme coleção de linhas de células

### Projeto FANTOM5 http://fantom.gsc.riken.jp/
http://fantom.gsc.riken.jp/5/sstar/Data_source
Grande coleção de dados de expressão baseados em CAGE em várias espécies (séries temporais e perturbações)

http://www.ebi.ac.uk/gxa/
Banco de dados que suporta consultas de expressão de genes específicos da condição em
um subconjunto com curadoria do Array Express Archive.

GNF Gene Expression Atlas

Disponível em BioGPS (http://biogps.org/#goto=welcome)
GNF (Instituto de Genômica da Fundação de Pesquisa Novartis) dados de matriz de expressão gênica em humanos e camundongos.

http://www.proteinatlas.org/
Perfis de expressão de proteínas com base em imuno-histoquímica para um grande número de tecidos humanos, cânceres e linhas celulares, localização subcelular, níveis de expressão de transcrição

http://www.uniprot.org/
Um banco de dados abrangente e de livre acesso da sequência de proteínas e
informação funcional

http://www.ebi.ac.uk/interpro/
Um banco de dados integrado de classificação de proteínas, domínios funcionais,
e anotação (incluindo termos GO).

Iniciativa de Reagentes de Captura de Proteína

http://commonfund.nih.gov/proteincapture/
Geração de recursos: renováveis, anticorpos monoclonais e outros reagentes que visam toda a gama de proteínas

Programa Knockout Mouse (KOMP)

O Mapa de Conectividade (CMAP)

http://www.broadinstitute.org/cmap/
O Mapa de Conectividade (também conhecido como cmap) é uma coleção de dados de expressão transcricional de todo o genoma de células humanas cultivadas tratadas com pequenas moléculas bioativas e algoritmos de correspondência de padrões simples que, juntos, permitem a descoberta de conexões funcionais entre drogas, genes e doenças por meio do característica transitória de mudanças comuns na expressão gênica. Você pode aprender mais sobre cmap em nossos artigos na Science and Nature Reviews Cancer.

Biblioteca de assinaturas celulares baseadas em rede integrada (LINCS)

https://commonfund.nih.gov/LINCS/
Coleta de dados e análise de assinaturas moleculares que descrevem como
diferentes tipos de células respondem a uma variedade de agentes perturbadores

Genômica da sensibilidade a drogas no câncer

http://www.cancerrxgene.org/
Mutação, CNV, expressão de Affy e sensibilidade a drogas em

O banco de dados de interação de genes de drogas (DGIdb)

Programa de Bibliotecas Moleculares (MLP)

https://commonfund.nih.gov/molecularlibraries/index.aspx
Acesso à capacidade de triagem em grande escala necessária para identificar pequenas moléculas que podem ser otimizadas como sondas químicas para estudar as funções de genes, células e vias bioquímicas na saúde e na doença

http://www.brain-map.org/
Coleta de dados e recursos públicos on-line que integram ampla expressão gênica e dados neuroanatômicos para humanos e camundongos, incluindo variação da expressão gênica por cepa.

http://braincloud.jhmi.edu/
BrainCloud é um aplicativo autônomo disponível gratuitamente para biólogos para explorar a dinâmica temporal e o controle genético da transcrição no córtex pré-frontal humano ao longo da vida. BrainCloud foi desenvolvido através da colaboração entre o Instituto Lieber e o NIMH

The Human Connectome Project

http://www.humanconnectomeproject.org/
Coleta e integração de dados para criar um mapa completo das conexões neurais estruturais e funcionais, dentro e entre os indivíduos

Projeto de sequenciamento de RNA de Geuvadis de 1000 amostras de genomas

http://www.geuvadis.org/web/geuvadis
mRNA e sequenciamento de RNA pequeno em 465 amostras de linha de células linfoblastóides (LCL) de 5 populações do Projeto 1000 Genomes: CEPH (CEU), Finns (FIN), Britânico (GBR), Toscani (TSI) e Yoruba (YRI).

http://www.broadinstitute.org/achilles O Projeto Achilles é um esforço sistemático que visa identificar e catalogar vulnerabilidades genéticas em centenas de linhas de células cancerosas genomicamente caracterizadas. O projeto usa uma biblioteca de shRNA de todo o genoma para silenciar genes individuais e identificar os genes que afetam a sobrevivência celular. A triagem funcional em larga escala de linhagens de células cancerosas fornece uma abordagem complementar aos estudos que visam caracterizar as alterações moleculares (mutações, alterações no número de cópias, etc.) de tumores primários, como o Atlas do Genoma do Câncer. O objetivo geral do projeto é vincular as dependências genéticas do câncer às suas características moleculares, a fim de identificar alvos moleculares e orientar o desenvolvimento terapêutico.

Recursos genômicos do envelhecimento humano

Atlas do Genoma do Câncer (TCGA)

http://cancergenome.nih.gov/
Coleta de dados e um repositório de dados, incluindo dados de sequência do genoma do câncer

Consórcio Internacional do Genoma do Câncer (ICGC)

http://www.icgc.org/
Coleta de dados e um repositório de dados para uma descrição abrangente das alterações genômicas, transcriptômicas e epigenômicas do câncer

Projeto de expressão genótipo-tecido (GTEx)

https://commonfund.nih.gov/GTEx/
Coleta de dados, repositório de dados e banco de amostras para expressão e regulação de genes humanos em vários tecidos, em comparação com a variação genética

Programa de fenotipagem do mouse Knockout (KOMP2)

https://commonfund.nih.gov/KOMP2/
Coleta de dados para fenotipagem padronizada de uma coleção de nocautes de mouse em todo o genoma

Banco de dados de genótipos e fenótipos (dbGaP)

http://www.ncbi.nlm.nih.gov/gap
Repositório de dados para resultados de estudos que investigam a interação de genótipo e fenótipo

Catálogo NHGRI de GWAS Publicado

http://www.genome.gov/gwastudies/
Catálogo público de estudos publicados de Genome-Wide Association

Banco de dados genômico clínico

http://research.nhgri.nih.gov/CGD/
Um banco de dados com curadoria manual de doenças com causas genéticas conhecidas, com foco em dados genéticos significativos do ponto de vista médico com as intervenções disponíveis.

Núcleo de informações sobre câncer de mama do NHGRI

http://www.ncbi.nlm.nih.gov/clinvar/
O ClinVar é projetado para fornecer um arquivo público de acesso livre de relatórios das relações entre variações e fenótipos humanos, com evidências de apoio. O ClinVar coleta relatórios de variantes encontradas em amostras de pacientes, afirmações feitas em relação ao seu significado clínico, informações sobre o remetente e outros dados de apoio. Os alelos descritos nas submissões são mapeados para sequências de referência e relatados de acordo com o padrão HGVS. O ClinVar apresenta os dados para usuários interativos e também para aqueles que desejam usar o ClinVar em fluxos de trabalho diários e outras aplicações locais. A ClinVar trabalha em colaboração com organizações interessadas para atender às necessidades da comunidade de genética médica da forma mais eficiente e eficaz possível.

Banco de dados de mutações de genes humanos (HGMD)

http://www.hgmd.cf.ac.uk/ac/
O banco de dados de mutação do gene humano (HGMD®) representa uma tentativa de comparar lesões gênicas conhecidas (publicadas) responsáveis ​​por doenças hereditárias humanas

NHLBI Exome Sequencing Project (ESP) Exome Variant Server

http://evs.gs.washington.edu/EVS/
O objetivo do Projeto de Sequenciamento de Exoma NHLBI GO (ESP) é descobrir novos genes e mecanismos que contribuem para doenças cardíacas, pulmonares e sanguíneas, sendo pioneira na aplicação do sequenciamento de próxima geração das regiões codificadoras de proteínas do genoma humano em diversos e ricamente populações fenotipadas e para compartilhar esses conjuntos de dados e descobertas com a comunidade científica para estender e enriquecer o diagnóstico, gerenciamento e tratamento de doenças cardíacas, pulmonares e sanguíneas.

http://ghr.nlm.nih.gov/
Genetics Home Reference é o site da National Library of Medicine para informações ao consumidor sobre as condições genéticas e os genes ou cromossomos relacionados a essas condições.

http://www.ncbi.nlm.nih.gov/books/NBK1116/
GeneReviews são descrições de doenças de autoria especializada e revisadas por pares, apresentadas em um formato padronizado e focado em informações clinicamente relevantes e medicamente acionáveis ​​sobre o diagnóstico, gerenciamento e aconselhamento genético de pacientes e famílias com doenças hereditárias específicas.

Global Alzheimer's Association Interactive Network (GAAIN)

http://www.gaain.org/
A Global Alzheimer’s Association Interactive Network (GAAIN) é um projeto colaborativo que fornecerá a pesquisadores de todo o mundo acesso a um vasto repositório de dados de pesquisa da doença de Alzheimer e as sofisticadas ferramentas analíticas e poder computacional necessários para trabalhar com esses dados. Nosso objetivo é transformar a maneira como os cientistas trabalham juntos para responder às principais questões relacionadas à compreensão das causas, diagnóstico, tratamento e prevenção do Alzheimer e outras doenças neurodegenerativas.
Em 2013, obteve dados WGS para a maior coorte de 800 pacientes com Alzheimer

O Consórcio Cohorts for Heart and Aging Research in Genomic Epidemiology (CHARGE)

http://web.chargeconsortium.com/
O Consórcio de Coortes para Pesquisa do Coração e Envelhecimento em Epidemiologia Genômica (CHARGE) foi formado para facilitar meta-análises de estudo de associação de todo o genoma e oportunidades de replicação entre vários estudos de coorte longitudinais grandes e bem fenotipados. Eles também têm dados de metilação de DNA ao lado de WGS e Exome Seq.

O NIMH Center for Collaborative Genomic Studies on Mental Disorders


Resultados

Perfil epigenômico abrangente em ambas as linhas de BLCA e tumores primários

Neste projeto, realizamos RNA-Seq, ChIP-Seq para acetilação de lisina 27 de histona 3 (H3K27ac), Ensaio para cromatina acessível por transposase usando sequenciamento (ATAC-Seq) e experimentos de captura de confirmação de cromatina em todo o genoma (Hi-C) em 4 linhas de células de câncer de bexiga (Fig. 1a), duas das quais (RT4 e SW780) foram previamente anotadas como luminais e as duas outras (SCABER e HT1376) que foram caracterizadas como basais [8, 25]. Com base nos dados de RNA-Seq gerados neste estudo, usamos uma abordagem de subtipagem molecular relatada anteriormente [26] para confirmar a atribuição aos estados luminal e basal. Nossos resultados confirmaram que RT4 e SW780 pertencem ao subtipo luminal-papilar, enquanto SCABER e HT1376 pertencem ao subtipo basal / escamoso (Arquivo adicional 1: Tabela S1). Cada experimento em linhagens de células de câncer de bexiga tem pelo menos duas réplicas biológicas (Arquivo adicional 2: Tabela S2) e observamos uma alta correlação entre as duas réplicas (Arquivo adicional 3: Tabela S3). Mais importante, realizamos o mesmo conjunto de experimentos em quatro pacientes com tumores de bexiga invasivos aos músculos. Usando o mesmo método de subtipagem molecular, determinamos seus subtipos da seguinte forma: T1 é luminal-papilar, T3 é rico em estroma e T4 e T5 são basais / escamosos.

Os subtipos BLCA transcricionais luminal e basal estão associados a um promotor distinto e à atividade de intensificadores distais no nível epigenético. uma Desenho geral do estudo. b A análise do gene de expressão diferencial (DEG) de linhas de células luminais (RT4 e SW780) e linhas de células basais (SCABER e HT1376) mostra 427 genes regulados positivamente específicos de basal e 524 genes regulados positivamente específicos de luminal. c Mapa de calor do diferencial H3K27ac ChIP-Seq nos promotores (esquerda). Perfis de intensidade do sinal H3K27ac para cada grupo de células BLCA (direita). d Rastreios de sinal do navegador do genoma para um painel de genes luminais e basais. Aqui estão as trilhas dos dados H3K27ac ChIP-Seq, ATAC-Seq e RNA-Seq em células RT4, SW780, SCABER e HT1376. e O promotor H3K27ac e seus sinais de RNA-Seq associados para genes luminais e basais selecionados mostram similaridade notável. f Os picos de H3K27ac integrados em potenciadores distais e o modelo de associação de expressão gênica de RNA-Seq identifica potenciadores putativos e regulação gênica. Os 10.000 principais intensificadores mais variáveis ​​(mapa de calor à esquerda) são plotados junto com sua expressão gênica correspondente (mapa de calor à direita). g Correlações de sinais de H3K27ac em todo o genoma entre as linhas de células de câncer de bexiga e amostras de tumor demonstram similaridade da paisagem do intensificador

Os subtipos de BLCA transcricional luminal e basal estão associados a promotores distintos e atividades de intensificadores distais no nível epigenético

O enriquecimento de sinais de H3K27ac foi usado para prever tanto os promotores ativos quanto os intensificadores distais [27, 28]. Portanto, primeiro realizamos ChIP-Seq para H3K27ac em todos os quatro tipos de células e quatro amostras de pacientes. Observamos que as réplicas biológicas seguindo H3K27ac ChIP-seq sempre agrupadas, indicando que nossos resultados são altamente reproduzíveis (arquivo adicional 4: Figura S1A). Além disso, descobrimos que dois subtipos luminais (RT4 e SW780) se agruparam, enquanto duas linhas de células basais (SCABER e HT1376) também estão agrupadas (Arquivo adicional 4: Figura S1A). Esses resultados de agrupamento sugerem que os perfis epigenômicos globais refletem com precisão a identidade celular. O agrupamento hierárquico nas linhas de células com base em sinais H3K27ac também foi espelhado pela expressão de mRNA global por dados de RNA-Seq (arquivo adicional 4: Figura S1B). Realizamos análises de expressão gênica diferencial nos dois grupos de tipos de células (RT4 e SW780 vs. SCABER e HT1376) e identificamos 427 genes específicos basais (arquivo adicional 5: Tabela S4) e 524 genes específicos luminais (Fig. 1b, arquivo adicional 6: Tabela S5).

Em seguida, examinamos o uso do promotor com base em sinais H3K27ac em genes conhecidos. Confirmamos que as intensidades do promotor H3K27ac são notavelmente semelhantes à expressão gênica (Fig. 1c), e a análise de agrupamento com base na intensidade do promotor H3K27ac foi capaz de distinguir os modelos luminais e basais de BLCA (arquivo adicional 4: Figura S1C). Por exemplo, observamos que duas linhas celulares de subtipo BLCA luminal RT4 e SW780 têm padrões semelhantes de H3K27ac em genes luminais FOXA1, GATA3, e PPARG (Fig. 1d, e), enquanto as duas linhas de células basais compartilham marcas promotoras semelhantes em genes que codificam os marcadores basais / escamosos KRT5 / 14. Curiosamente, embora com base na expressão gênica global, HT1376 é classificado como um subtipo basal / escamoso, ele mostra um padrão de promotor H3K27ac semelhante em genes luminais (GATA3, KRT7 / 8/18, Fig. 1e).

Picos distais de H3K27ac de regiões promotoras de genes têm sido usados ​​como marcadores para potenciadores ativos [27, 29]. Tomamos a mesma abordagem aqui e, em média, previmos 59.466 (40.731-78.506) intensificadores em cada linha celular (Arquivo adicional 7: Tabela S6). Para ligar os intensificadores distais aos seus genes alvo, realizamos uma associação de pico-gene do intensificador distal baseada na correlação, conforme descrito em [30] e identificamos os 10.000 principais intensificadores distais variáveis ​​que mostram correlação significativa com seu gene ligado (correlação ≥0,5, p & lt 0,01 um total de 58.509 satisfez nossos critérios (Fig. 1f e Arquivo adicional 8: Tabela S7). Observamos que os potenciadores mostram um agrupamento claro de acordo com diferentes tipos de células, e seus genes-alvo mostram padrões específicos de tipo de célula semelhantes (Fig. 1f e arquivo adicional 4: Figura S1D). Além disso, para entender a relevância clínica de nossos achados, realizamos H3K27ac ChIP-Seq em quatro amostras de pacientes com bexiga invasiva muscular. Nossos resultados mostram uma correlação notável de linhas de células tumorais (Fig. 1g). Em resumo, mostramos nessas linhas de células e em uma coorte de tumor limitada que a regulação epigenética está correlacionada com a atribuição de subtipo molecular.

Conjuntos distintos de motivos de fator de transcrição são enriquecidos em luminal e basal associado a BLCA cis Regiões regulatórias de DNA

Realizamos ATAC-Seq em linhas de células RT4, SW780, SCABER e HT1376 para avaliar seu status de cromatina aberta no genoma. Em média, em cada linha celular, identificamos 32.000 regiões de cromatina aberta (Fig. 2a e Arquivo adicional 9: Tabela S8). Dentre eles, 40,8% das regiões de cromatina aberta estavam localizadas em regiões promotoras, enquanto 59,2% estavam localizadas em regiões distais. No geral, & gt 90% das regiões do promotor da cromatina aberta se sobrepõem ao H3K27ac (arquivo adicional 4: Figura S2A, S2C-D). A sobreposição de picos distais ATAC-Seq e H3K27ac é menor (arquivo adicional 4: Figura S2A e arquivo adicional 10: Tabela S9), pelo menos parcialmente devido aos diferentes números de picos em conjuntos de dados diferentes. A correlação de todo o genoma de ATAC-Seq mostrou que HT1376 e SCABER se agruparam com 80% de similaridade (Arquivo adicional 4: Figura S2E) em comparação com RT4 luminal (

65%). Notamos que esta observação está de acordo com o agrupamento baseado em RNA-Seq e agrupamento baseado em H3K27ac (arquivo adicional 4: Figura S1A e B).

Conjuntos distintos de motivos de fator de transcrição são enriquecidos em luminal e basal associado a BLCA cis Regiões regulatórias de DNA. uma Um conjunto abrangente e distinto de sinais ATAC-Seq distais em três grupos (específico luminal, específico basal e compartilhado) e os sinais H3K27ac correspondentes. b Os resultados da análise do motivo TF são mostrados aqui como um gráfico classificado (esquerda) e motivos (direita), onde para intensificadores de cromatina aberta específicos luminal (superior) e escamoso basal (inferior). c As cromatinas abertas ligadas a FOXA1 e GATA3 localizadas em intensificadores distais de RT4 / linha celular luminal são representadas aqui em três grupos: FOXA1 apenas, apenas GATA3 e locais de ligação FOXA1 e GATA3. d Análise de ontologia genética das vias para cada grupo de sítios de ligação (FOXA1 apenas, FOXA1 e GATA3 e apenas GATA3). e A ocorrência observada de motivos TF (AP-1, FOX Forkhead e GATA) é mostrada aqui em intensificadores distais e promotores de três grupos. f Cromatinas abertas em todo o genoma de linhas de células BLCA mostram semelhança com tumores de bexiga TCGA [30]

Em seguida, realizamos a análise do motivo dessas regiões de cromatina aberta (arquivo adicional 11: Tabela S10). Observamos que os locais de ligação para o complexo CTCF e AP-1 são enriquecidos em todas as linhas de células (Fig. 2b e arquivo adicional 4: Figura S2G). Classificação adicional de motivos TF por enriquecimento p-valor revelou regiões de cromatina aberta luminal (compartilhadas entre RT4 e SW780) foram enriquecidas com motivos de ligação para GRHL2, TP53 e TP63 enquanto as cromatinas abertas basais (compartilhadas entre SCABER e HT1376) foram enriquecidas para TEAD1 / 4 e fator KLF (Fig. 2b ) motivos de ligação. GRHL2 [31] foi relatado anteriormente como um gene luminal, validando assim nossos achados. Curiosamente, os motivos de ligação para as proteínas do complexo AP-1 FOSL1 / 2, JUN / JUNB, ATF3 e BATF TFs [32] foram os motivos mais enriquecidos para as cromatinas abertas luminal e basal-escamosa. Em seguida, mapeamos de forma abrangente todos os motivos TF enriquecidos em cromatinas luminal, basal-escamosa e aberta compartilhada de intensificadores distais para examinar a relação entre os subtipos TFs e BLCA (arquivo adicional 11: Tabela S10). Descobrimos que, em potenciadores distais, os subtipos luminais de BLCA estão associados a TFs de receptores de hormônio esteróide previamente relatados. Por outro lado, as áreas de cromatina aberta basal-escamosa em realçadores mostram enriquecimento de fatores anteriormente não relatados MADS box TF MEF2C e homeobox TF OTX2. Não surpreendentemente, TFs pioneiros luminais, como fatores de transcrição forkhead (FOXA1 / 2/3, FOXF1, FOXK1, FOXM1) e TFs GATA (GATA3 / 4/6) foram enriquecidos em potenciadores associados a luminal com uma conformação de cromatina aberta. Mais surpreendentemente, os motivos forkhead e GATA também foram identificados como estando associados à cromatina aberta em elementos potenciadores através das linhas celulares (arquivo adicional 11: Tabela S10). Enquanto FOXA1 e GATA3 são conhecidos por terem baixa expressão em linhagens celulares de câncer de bexiga basal e tumores, o enriquecimento de motivos forkhead e GATA em cromatinas abertas em linhas de células BLCA sugere compensação por fatores Forkhead e GATA diferentes de FOXA1 e GATA3. Além disso, o enriquecimento do motivo Forkhead e GATA em linhas celulares em áreas de cromatina aberta pode indicar que os TFs específicos do lúmen estão posicionados para se ligar a essas áreas de cromatina aberta. Além disso, FOXA1 e GATA3 são conhecidos por desempenhar um papel no desenvolvimento do urotélio [31], sugerindo que seus locais de ligação podem ser preparados no início do desenvolvimento. Também descobrimos que os TFs pioneiros associados a células-tronco, como fatores KLF (KLF10 / 14), fatores ATF (ATF1 / 2/4/7) e NANOG foram enriquecidos em potenciadores associados a bases. Isso é interessante porque existe uma população de células progenitoras dentro do urotélio basal que pode contribuir para o desenvolvimento e diferenciação urotelial [33, 34].

FOXA1 e GATA3 ligam-se às cromatinas abertas luminais em intensificadores distais reguladores para conduzir a expressão de genes específicos do luminal

Nossa hipótese é que os TFs, como FOXA1 e GATA3, ligam-se na região da cromatina aberta para potencializar intensificadores luminais e ativar a expressão gênica associada. Para testar esta hipótese, realizamos GATA3 ChIP-Seq na linha celular BLCA luminal RT4 e obtivemos FOXA1 ChIP-Seq em células RT4 de nosso trabalho publicado anteriormente (Arquivo adicional 12: Tabela S11) [8]. Como previsto, os TFs luminais FOXA1 e GATA3 mostraram ligação enriquecida nos loci da cromatina aberta de associados luminais (FOXA1, GATA3, PPARG, FGFR3, e FABP4) intensificadores distais (Fig. 2c). Mais especificamente, descobrimos 1325 intensificadores distais que mostram co-ligação de FOXA1 e GATA3 em RT4 (Fig. 2c). Da mesma forma, FOXA1 e GATA3 mostraram ligação enriquecida em loci de cromatina aberta de genes marcadores luminais (FOXA1, ERBB3, KRT19, GPX2, e FABP4) promotores (arquivo adicional 4: Figura S2F).

A análise do termo GO de genes proximais a esses locais distais potenciadores mostrou a regulação da produção de TGF beta, desenvolvimento de epitélio, regulação da transcrição envolvida no compromisso de destino celular e processos biológicos de adesão célula-célula (ligação de caderina e montagem de junção de aderentes) como termos associados a FOXA1 . Além disso, a regulação do componente celular, tamanho da célula e processos biológicos da membrana plasmática apical foram termos identificados com genes ligados a GATA3 proximais a esses intensificadores distais, sugerindo um forte envolvimento de ambos os TFs no compromisso com o destino celular e diferenciação luminal (Fig. 2d ) Em relação aos genes proximais associados a intensificadores distais ligados por FOXA1 e GATA3, os termos identificados foram associados a vários processos de desenvolvimento e à regulação da secreção de muco e diferenciação de células de gordura, ambos atributos metabólicos importantes do urotélio diferenciado (Fig. 2d).

Em seguida, procedemos com a análise do motivo apenas de FOXA1, apenas de GATA3 e de sites co-ligados. Surpreendentemente, os complexos AP1 foram enriquecidos especificamente em todos os intensificadores distais, além dos motivos FOXA ou GATA (Fig. 2e). A ordem de ligação desses três fatores ainda precisa ser investigada. Finalmente, para compreender a relevância clínica de nossos achados, comparamos nossas quatro linhas de células BLCA com os dados ATAC-Seq de tumor de bexiga invasivo do músculo TCGA [30] e descobrimos que o perfil de cromatina aberto em todo o genoma em nossas linhas de células está agrupado com grupos distintos de tumores (Fig. 2f), sugerindo que as regiões de cromatina aberta nessas linhas de células compartilham padrões semelhantes com os tumores dos pacientes.

Os subtipos luminais e basais de BLCA mostram organizações do genoma 3D potencialmente distintas

Estudos anteriores demonstraram que a organização da cromatina 3D está associada à ativação epigenética ou silenciamento de genes nas células [35]. Por exemplo, a maioria da heterocromatina é conhecida por ser comprimida nos núcleos e localizada perto da periferia associada à lâmina do envelope nuclear [35]. Para obter informações iniciais sobre a paisagem 3D de todo o genoma de BLCA luminal e basal, realizamos experimentos Hi-C de alta resolução em todas as quatro linhas de células (pelo menos 800 M leituras, cada) e cinco pacientes com tumor de bexiga (& gt 800 M leituras , cada) (Arquivo adicional 4: Figura S3). Usamos nosso software recentemente desenvolvido, Peakachu [36], que é uma abordagem de detecção de loops de cromatina baseada em aprendizado de máquina, para prever loops com resolução bin de 10Kb. Primeiro, identificamos uma média de 56.315 loops (faixa entre 38.271 e 69.032) nas quatro linhas de células (prob & gt 0.8 Arquivo adicional 13: Tabela S12). Em seguida, usando a saída de pontuação de probabilidade de Peakachu, atribuímos laços de cromatina específicos de subtipo, conforme mostrado na Análise de Pico Agregado (APA, Fig. 3a e Arquivo adicional 14: Tabela S13) [37]. Com base em nossa abordagem, observamos mais loops potencialmente luminal-específicos em RT4 e SW780 (2299) em relação aos modelos BLCA basais SCABER e HT1376 (2144). Em seguida, comparamos cada uma dessas categorias com loops detectados em cinco amostras de pacientes (Fig. 3b):

30-40% dos loops de cromatina 3D atribuídos ao luminal e ao basal identificados nas linhas de células foram observados nessas cinco amostras de tumor.

Os subtipos luminal e basal de câncer de bexiga mostram organizações genômicas 3D potencialmente distintas. uma A análise de loop Hi-C de linhas de células luminal e baso-escamosas mostra distintos loops luminal e basal-escamoso. b Os contatos identificados em linhas celulares luminais e baso-escamosas são compartilhados e validados em cinco amostras de tumor de câncer de bexiga. c Trajetos do navegador do genoma para o gene luminal selecionado (FOXA1) e o gene basal (KRT5) que contêm loops potenciadores-promotores são mostrados aqui. Os arcos indicam os loops de cromatina previstos usando dados Hi-C. d O tipo de contato com base na sobreposição da localização do contato no intensificador (H3K27ac na região distal) ou no promotor (H3K27ac e H3K4me3 no promotor) em cada linha celular é mostrado. E-P, loops potenciador-promotor E-E, loops potenciador-potenciador P-P, loops promotor-promotor E-N, loops potenciador-não regulador P-N, loops promotor-não regulador Nenhum, loops não reguladores. e Enriquecimento de locais de ligação de FOXA1 (eixo esquerdo) e GATA3 (eixo direito) em células RT4 (luminal) é mostrado aqui em suas âncoras de loop

Por fim, examinamos as alças do intensificador e do promotor em cada categoria quanto à sua associação com a expressão gênica específica do subtipo. Exemplos são mostrados na Fig. 3c, na qual descobrimos que o gene luminal FOXA1 e o gene basal KRT5 mostraram aumento do número de alças promotoras de potenciador em linhas celulares luminais e basais, respectivamente. No geral, observamos que

40% dos loops de cromatina existem entre intensificadores e promotores (Fig. 3d). Além disso, encontramos um enriquecimento significativo de sítios de ligação de FOXA1 e GATA3 nessas âncoras de loop, indicando o envolvimento desses fatores pioneiros na regulação do genoma 3D (Fig. 3e). Este achado está de acordo com estudos anteriores relatando o enriquecimento de sítios de ligação de FOXA1 em loops de promotor-potenciador [38].

Variação do número de cópias (CNV) e loops de cromatina no câncer de bexiga

Uma marca registrada do câncer são as grandes variações estruturais (VSs), que incluem inversões, deleções, duplicações e translocações. Recentemente, foi demonstrado que a alteração em CNVs e SVs pode levar às alterações na estrutura do genoma 3D, incluindo a formação de novos domínios topologicamente associados ("neo-TADs") [39] e "sequestro de potenciador" resultante [40]. Neo-TADs referem-se a cenários onde um evento de SV leva à formação de novos domínios de cromatina, que por sua vez podem afetar os perfis de expressão dos genes localizados nessas regiões. No modelo "potenciador-sequestro", a organização do genoma 3D alterada resulta em interação anormal do potenciador, com potenciadores colocados em estreita proximidade com o gene alvo errado (geralmente um oncogene), resultando em ativação inadequada do alvo.

Primeiro, identificamos sistematicamente variações do número de cópias (CNVs) e eventos SV usando os dados Hi-C com HiNT [41] e o software Hi-Cbreakfinder [42]. Identificamos dezenas de grandes VSs, incluindo inversões, deleções e translocações (Fig. 4a, b, Arquivo Adicional 4: Figuras S4-S5, Arquivo Adicional 15: Tabela 14). Como seria de se esperar, observamos menos CNVs nas amostras de pacientes do que nas linhas de células. Mais importante, fomos capazes de reconstruir o mapa Hi-C local em torno dos pontos de interrupção dos SVs. Podemos observar eventos de sequestro de realçador interessantes e a formação de neo-TADs nesses mapas Hi-C locais (Fig. 4c-h). These observations provide an important resource to further study the function of the re-arranged enhancers in the context of bladder cancer.

Chromatin interactions induced by structure variation (SV) events. uma, b Circos plot showing intra- and inter-chromosome SVs in SCABER (uma) and SW780 (b). c A large intra-chromosomal translocation on chr9. dh Inter-chromosomal translocations. The breakpoints were identified by the HiCBreakfinder software. We then reconstructed the local Hi-C maps across the breakpoints. RNA-Seq and H3K27ac ChIP-Seq tracks from the same cell type are shown below the Hi-C maps

Neuronal PAS Domain Protein 2 (NPAS2) is a novel luminal BLCA TF which regulates luminal gene expression and cell migration

Genome-wide open chromatin analysis of BLCA cell lines provides an ideal platform for the identification of novel transcriptional regulators of BLCA cell fate and phenotype. Here we performed motif analysis of luminal-associated, basal-associated, and shared open chromatin regions, resulting in the identification of distinct TFs in each cluster. Among them, many represent known families of subtype-specific regulators, such as the GATA, FOX, and ETS families at luminal-associated ATAC-Seq peaks. Among them, we noticed a potential novel bHLH containing regulator, NPAS2, which is enriched in the luminal-associated and shared clusters, but not enriched in basal-associated ATAC-Seq peaks (Fig. 5a). We examined its binding profile using the latest ENCODE data (HEPG2 cells) [43] and found that NPAS2 binds at the FOXA1 promoter region (Fig. 5b), but not at regulatory regions for basal marker genes. This suggests the possibility that NPAS2 may be an upstream regulator of FOXA1. We then checked the TCGA data and found that high expression level of NPAS2 is significantly correlated to overall patient survival (Fig. 5c).

NPAS2 is a novel bladder cancer regulator. uma p-values of NPAS2 motif in luminal-associated (RT4, SW780), basal-associated (SCABER, HT1376), and shared open chromatin regions. b NPAS2 ChIP-seq signal near luminal marker genes FOXA1, GATA3, e PPARG in HEPG2 cell line. c NPAS2 Kaplan-Meier curve is shown here for 2000 days with log-rank statistics and hazards ratio. d Transwell migration assay representative crystal violet staining (left) and quantification of differences in transwell migration (right) are shown following overexpression of NPAS2 in SCABER. e RT-qPCR results for basal marker genes KRT5, KRT6A, STAT3, e TFAP2C are shown here for wild-type and NPAS2 overexpressed SCABER basal cell line. f NPAS2, FOXA1/GATA3, e PPARG RT-qPCR are shown here for wildtype and FOXA1/GATA3 overexpressed SCABER basal cell line

To further determine whether NPAS2 expression influences the downstream target expression and phenotype, we overexpressed NPAS2 in the basal-squamous BLCA cell line SCABER. First, we performed trans-well migration assays and found that overexpression of NPAS2 in SCABER cells decreased cell trans-well migration (Fig. 5d). We then performed RT-qPCR experiments and found that the basal marker genes (such as KRT5, KRT6A, e TFAP2C) are significantly downregulated (Fig. 5e) following NPAS2 overexpression, suggesting NPAS2 represses the expression of a subset of basal marker genes.

Because our functional genomics analysis suggests that FOXA1 and GATA3 cooperate to regulate luminal target genes [8], we individually overexpressed FOXA1 and GATA3 in SCABER cells to test their ability to regulate NPAS2 expression. We observed increased expression of NPAS2 by both FOXA1 and GATA3 overexpression (Fig. 5f).


Discussions

Advances in single-cell technologies present new challenges and opportunities for making biological discovery. Single-cell studies often involve large numbers of cells, which are powerful at characterizing cellular heterogeneity, but small numbers of biological samples, which are underpowered for discovering common disease genes. It has been shown by recent genome-wide association analysis that it is possible to enable new discovery by performing association analysis at cell-type resolutions [55]. For cancer and genetic diseases driven by somatic mutations, being able to obtain genetic footprint at various time and conditions can enable discovery of genes responsible for disease progression and resistance to therapy.

However, it remains unclear what analytical strategies should be deployed to achieve the benefits. Even more challenging it gets when CNAs are being considered, as CNAs affect large regions of the genome and are difficult to trace using phylogenetics methods.

In our study, we demonstrated that it is possible to achieve the benefit by reconstructing copy number evolution history as a lineage tree, i.e., MEDALT, and performing permutation-based statistical analysis, i.e., LSA, to identify fitness-associated CNAs and genes.

We have learned several important lessons in our study.

First, it is important to perform accurate lineage tracing. Although the single-copy gain and loss model that we implemented in deriving MEDALTs is limited in complexity, it already performed substantially better than conventional phylogenetics algorithms such as MP that assumes infinite sites and NJ that employs naïve distance metrics, as shown in our simulation and in real data analysis. It is conceivable that further development of methodology that incorporates more complex genome evolution mechanisms such as chromothripsis [56] can lead to better results.

An important goal was to represent convergent evolution that is likely prevalent in the lens of CNAs [10, 57]. Conventional phylogenetics algorithms strictly prohibit the expression of convergent evolution by disallowing an alteration to occur multiple times in a course of evolution [28]. Several new algorithms relaxed such limitation but were designed for analyzing point mutation data [58]. As shown in our analysis of the TNBC patients, genes identified based on convergent evolution analysis (i.e., PLSA) had an even higher fraction of known cancer genes than those identified based on cohort-level single-lineage LSA. Our result suggests that examining convergent evolution is likely a key component towards fully unleashing the power of single-cell studies.

Unlike canonical phylogenetic trees, MEDALTs are minimal spanning trees that do not contain unobserved internal ancestral nodes. Representing evolution using minimal spanning trees instead of phylogenetics trees was our deliberate choice, as it allowed us to develop polynomial-runtime solutions that are scalable to real datasets containing thousands of cells. It also allowed us to conveniently implement biologically meaningful MED and enforce directionality constraints. Phylogenetics algorithms are likely effective when the numbers of cells are small and that the alterations are simple to trace. None of these conditions apply to available SCCN datasets that have CNAs evolving non-linearly in hundreds of cells. Moreover, we have shown in our simulation that for the purpose of detecting fitness-association alterations, our method outperformed phylogenetics approaches in a wide range of sample sizes.

A particular challenge in developing and evaluating computational lineage tracing methods is the lack of exact ground truth. Although various experimental technologies have been developed [59, 60], we are not aware of any that can be applied to trace copy number evolution in patient samples. To circumvent this, we utilized in silico simulation that mimics several prevalent CNA mechanisms to evaluate the accuracies of the reconstructed lineages and fitness-associated alterations. We also utilized longitudinal datasets on which we knew the biological stages of the cells to evaluate the chronological accuracy of the inference results. Although these strategies are unlikely sufficient to validate all the edges and lengths in the trees, they are objective and sufficient to discriminate various approaches.

Second, it is important to control biases in statistical inference. It is challenging to detect fitness-associated genes, as CNAs often affect a large number of genes and that the sample sizes are often small. Passenger CNAs that occur naturally in non-functional regions such as those near fragile sites or repeats could easily cloud the discovery. In addition, lineage tracing algorithms are unlikely to be perfect and could introduce distinct biases. To address these challenges, we employed LSA, which randomly permutes SCCN profiles into different cells to reduce the biases introduced by background genomic variations and technical noises. And we reconstructed trees from permutated datasets to alleviate biases introduced by the lineage tracing algorithms. The evolutionarily meaningful MED metrics and constraints help our analyses to focus on biologically relevant hypotheses, given limited computational resources. These procedures appeared important to achieve the accuracy. Further exploration of different ways to permute the data and to estimate the background distribution will likely lead to better results.

We assessed the functional impact of the identified genes using cell-line CRISPR essentiality screen data. We confirmed that the set of fitness-associated, amplified genes discovered by our methods are significantly more essential than other control gene sets in cancer cell lines. We also nominated novel genes that appear to have prognostic values in TCGA and the METABRIC datasets. These assessment strategies likely have false positives and negatives. Further comprehensive, well-controlled and targeted experiments will likely be required to fully assess the functional impact and clinical values of these genes.

Lastly, it was exciting to observe benefits of our methods on both the scDNA-seq and the scRNA-seq data. Although RNA-derived copy number profiles may not be as accurate as those derived from DNAs, previous studies [61] suggested that they can reasonably distinguish tumor clones. Our study further revealed the value of scRNA-seq data in lineage tracing and supported the notion that genomic profiles, even approximations, are more accurate than transcriptomic profiles in determining biological timing of cells. Our results opened doors towards utilizing scRNA-seq as a platform to understand genetics underlying developmental processes and perform gene discovery.


CONCLUSÃO

The number of users proves that MEXPRESS, through its ease of use and unique, integrative data overview, found its place in the toolbox of many researchers. By combining a comprehensive visualization and statistical analysis in a single figure, MEXPRESS helps researchers quickly identify dysregulations and their clinical relevance in cancer. With this major, feedback-driven update, we aim to consolidate MEXPRESS’s place in the set of open source web tools available to researchers and clinicians.


Métodos

Haploproficient genes and orthology analysis

The set of S.cerevisiae genes which are haploproficient in turbidostat culture was obtained using the growth data of [8] and an FDR cutoff of 0.02. This stringent FDR cut-off rigorously defines those genes for which heterozygosity confers a strong fitness advantage, but has no effect on the functional enrichment of genes identified as haploproficient. Genes defined as ‘haploproficient’ for the purposes of this study are listed in Additional file 1: Table S1. The set of chromosome maintenance-associated HP genes described in [8] overlaps, but is not coincident, with the HPGI set studied here, since the current set also includes DNA damage-response genes.

Orthology assignments were made using the InParanoid algorithm [50] and compared with the results of a BLAST [51] reciprocal best-hits search. GO enrichment searches were performed using the Babelomics 4 FatiGO tool [52]. To assess the significance of HP gene conservation, the number of HP genes having orthologs in a given Ascomycete species, given the number of S. cerevisiae HP genes, was compared against the whole-genome conserved proportion using a χ 2 or Fisher exact test (depending on sample size), with the null hypothesis of identical distribution. All findings of significance were reiterated using a Z test for difference of proportions. Where necessary, P values were corrected for multiple testing using the Bonferroni correction. Cell cycle and DNA damage repair pathways were obtained from the KEGG pathway database [53].

Expression data for S.cerevisae genes was obtained from the Saccharomyces Genome Database [54] and protein expression levels from [55]. A list of human cancer genes/oncogenes was obtained from the Cancer Gene Index [17] enrichment of HP genes amongst the orthologs was determined using a χ 2 test as above. CNV incidence across eight tumour types (breast invasive carcinoma, rectum adencarcinoma colon adenocarcinoma, kidney renal cell clear carcinoma, uterine corpus endometrioid carcinoma, glioblastoma multiforme, acute myeloid leukemia, lung adenocarcinoma, lung squamous cell carcinoma, serous cystadenocarcinoma) as measured by comparative genomic hybridisation, was obtained from the NCI Cancer Genome Atlas online data browser [17] with a copy number (log2 ratio) of magnitude >0.5 taken as the significance threshold. Details of the sampling and analysis of the tumour samples are described in [17]. UMA P-value for HP ortholog overrepresentation was calculated using a χ 2 test .The TGCA database was also used to perform a pathway search for overrepresentation of HP orthologs.

Yeast strains

In total, 30 HP genes were chosen for analysis, based upon the criteria discussed in the Results above. The heterozygous deletion mutant of each gene was obtained from the heterozygous diploid deletion library (Open Biosystems), in the BY4743 (ESTEIRA uma /α, his3D1/his3D1, leu2D0/leu2D0, LYS2/lys2D0, met15D0/MET15, ura3D0/ura3D0) genetic background. For non-essential genes, the homozygous deletant was retrieved from the analogous homozygous diploid deletion library (Open Biosystems).

Control strains were the BY4743 WT, along with the heterozygous deletion mutant of the non-functional his3 locus the non-HP, non-cell cycle ho/HO heterozygous deletion strain and the heterozygous deletion mutant of the non-HP, cell cycle gene HSL1. In addition, heterozygous deletion mutants of the G1 and G2 cyclins were included in several of the experiments. A complete list of the strains used is provided in Additional file 6: Table S6.

Cell-cycle profiling

Flow cytometric analysis of the deletion strains’ cell cycle profiles was carried about following the method of [56]. Brevemente,

10 7 cells in mid-exponential phase were harvested, washed, and fixed in absolute ethanol at 4C overnight. Fixed cells were then collected, washed, and boiled for 15 minutes in 2 mg/mL RNAse in 50 mM Tris-Cl (pH 8), and incubated at 37C for 2–12 hours. Cells were resuspended in protease solution (5 mg/mL pepsin, 4.5 μL/mL concentrated HCl), incubated for 15 minutes at 37C and resuspended in 50 mM Tris (pH 7.5). For analysis, 50 mL of cell suspension was added to 1 mL of 1 mM Sytox Green in 50 mM Tris pH 7.5), vortexed and analysed using a Cyan flow cytometer (Beckman Coulter). FlowJo (Tree Star) analysis software was used to fit histograms to the peaks representing 1C and 2C DNA content, and thereby calculate the number of cells in the G1 and G2 phases, and infer the number in S phase from the remaining fraction of the population.

Chronological lifespan assay

Cultures were inoculated from frozen stocks, grown overnight in YPD at 3°C, and 200mL of each was transferred into a well of a 96-well microtiter plate (Corning). Strains were present in duplicate on each plate, with a buffer of WT in the wells around the edge of the plate, so edge effects would not impact test colony measurements. A Singer Rotor HDA colony pinning robot was used to spot four replicates of each well onto a YPD + 10 μg/mL phloxine B (Sigma) plate. Phloxine B is a fluorescein derivative taken up when the cell membrane is disrupted upon cell death [57]. Plates were incubated for 48 hours at 3°C and photographed using an Epson 1240 Scanner. The colony images were analysed using a custom image-analysis code written in MatLab, with colony size measured by pixel count, and fraction of dead cells by the intensity of colony redness [10]. Since these parameters are independent, this allowed the dissection of the effect of cell viability upon colony growth from that of growth rate variation. The 96-well liquid cultures were incubated at 3°C, and, every second day over a period of three weeks, the colony-pinning onto YPD + phloxine B and image analysis repeated. For each plate, the median culture intensity for each strain was compared with the growth of the WT on that plate, and also with the strain growth and viability after the initial 48-hour period. The experiment was performed twice.

At several points throughout the 3-week period, several strains were selected at random, and viability assayed by performing serial dilutions and counting colony-forming units. These results were checked for compatibility with the microplate viability results.

Apoptosis assays

The rate of occurrence of apoptosis in the different strain populations was measured in two ways. Apoptosis was first induced by pretreating cells with 0.001%, 0.01% MMS, 0.0001% or 0.001% TBHP in overnight culture keeping a negative, non-induced WT control sample.

The translocation of phosphatidyl serine to the cell surface, a marker of apoptosis [58], was measured using an Annexin V-FITC Apoptosis Detection kit. (Sigma). Cells were harvested, washed in 1.2M sorbitol, 0.5 mM MgCl2, 35 mM K phosphate (pH 6.8) and then digested in 5.5% glusulase (Sigma) and 15 U/mL lyticase (Sigma) for 2 hours at 28C. Spheroplasts were harvested, washed in binding buffer (10 mM Hepes/NaOH pH 7.4, 140 mM NaCl, 2.5 mM CaCl2 in 1.2 M sorbitol buffer) and resuspended in binding buffer/sorbitol. 5 mL of FITC-labelled annexin V, and 10 mL of 10010 mg/mL propidium iodide were added to each sample, with control samples containing 1.) no label, 2.) FITC-annexin V only, and 3.) PI only. Fluorescence was quantified using a CyAn (Beckman Coulter). Gates were fitted on the basis of the the control samples, dividing a log PI versus log FITC plot into four quadrants: lower left (neither FITC nor PI-stained) – viable cells upper left (PI stain only) – necrotic cells lower right (FITC only) – early apoptotic cells and upper right (PI and FITC-stained) – late apoptotic cells. FlowJo software (TreeStar) was used to count the fraction of the total cell population in each quadrant. The proportion of both necrotic and apoptotic cells for each strain was normalised to strain viability (i.e. on the basis of the proportion of cells assigned to the lower-left FITC/PI quadrant), and the ratio of necrotic:apoptotic cells calculated. Ratios for each strain were normalised to the WT value, and the standard deviation across all samples calculated. Strains having a necrosis:apoptosis ratio further than 1.5x this standard deviation from WT levels were deemed to demonstrate abnormal apoptosis rates.

Growth rate and drug sensitivity assays

Growth and drug sensitivity assays were performed both on solid media and in liquid cultures. For solid assays, the required drug concentration was added to YPD-agar containing 10μg/m/mL phloxine B. Overnight cultures of the strains were spotted onto the (drug-containing) plates using a Singer rotor, as above. Plates were incubated at 3°C and photographed at 24 and 48 hours and analysed using an image-processing code as described above. Strain growth and viability was compared both with WT growth on the same plate, and with growth on YPD-agar (or YPD-agar plus DMSO, where the drug is DMSO-soluble). The ratio of viability and size with and without drug was calculated for every strain on a plate, and the standard deviation of all ratios calculated. Strains having a drug:untreated ratio greater than or less than two standard deviations from that of the WT were deemed to be resistant and sensitive, respectively.

Assays in liquid culture were performed by transferring 5mL of overnight culture into each well of a 96-well microtitre plate, containing 200 μL of YPD plus the required concentration of drug. Absorbance was measured for 30 hours at 3°C using a BMG Optima platereader, maximum growth rate calculated using a curve-fitting script written in R, and the growth rate for each strain compared with that of the WT in the same plate, and growth in YPD/YPD + DMSO.


Referências

Yi K, Ju Y. Patterns and mechanisms of structural variations in human cancer. Exp Mol Med. 201850:98.

Yang L, Luquette L, Gehlenborg N, Xi R, Haseley P, Hsieh C, Zhang C, Ren X, Protopopov A, Chin L, et al. Diverse mechanisms of somatic structural variations in human cancer genomes. Célula. 2013153:919–29.

Zhang Y, Yang L, Kucherlapati M, Chen F, Hadjipanayis A, Pantazi A, Bristow C, Lee E, Mahadeshwar H, Tang J, et al. A pan-cancer compendium of genes deregulated by somatic genomic rearrangement across more than 1,400 cases. Cell Rep. 201824:515–27.

Campbell P, Getz G, Stuart J, Korbel J, Stein L. Pan-cancer analysis of whole genomes. Preprint at. 2017. https://doi.org/10.1101/162784.

Zhang Y, Chen F, Fonseca N, He Y, Fujita M, Nakagawa H, Zhang Z, Brazma A, Creighton C. Whole genome and RNA sequencing of 1,220 cancers reveals hundreds of genes deregulated by rearrangement of cis-regulatory elements. Preprint at. 2017. https://doi.org/10.1101/099861.

Deaton A, Bird A. CpG islands and the regulation of transcription. Genes Dev. 201125: 1010–22.

Bird A. DNA methylation patterns and epigenetic memory. Genes Dev. 200216:6–21.

Pfeifer G. Defining driver DNA methylation changes in human cancer. Int J Mol Sci. 201819:E1166.

Morano A, Angrisano T, Russo G, Landi R, Pezone A, Bartollino S, Zuchegna C, Babbio F, Bonapace I, Allen B, et al. Targeted DNA methylation by homology-directed repair in mammalian cells. Transcription reshapes methylation on the repaired gene. Nucleic Acids Res. 201442:804–21.

Russo G, Landi R, Pezone A, Morano A, Zuchegna C, Romano A, Muller M, Gottesman M, Porcellini A, Avvedimento E. DNA damage and repair modify DNA methylation and chromatin domain of the targeted locus: mechanism of allele methylation polymorphism. Sci Rep. 20166:33222.

Allen B, Pezone A, Porcellini A, Muller M, Masternak M. Non-homologous end joining induced alterations in DNA methylation: a source of permanent epigenetic change. Oncotarget. 20178:40359–72.

Sun W, Bunn P, Jin C, Little P, Zhabotynsky V, Perou C, Hayes D, Chen M, Lin D. The association between copy number aberration, DNA methylation and gene expression in tumor samples. Nucleic Acids Res. 201846:3009–18.

Davis C, Ricketts C, Wang M, Yang L, Cherniack A, Shen H, Buhay C, Kang H, Kim S, Fahey C, et al. The somatic genomic landscape of chromophobe renal cell carcinoma. Cancer Cell. 201426:319–30.

Forbes S, Beare D, Boutselakis H, Bamford S, Bindal N, Tate J, Cole C, Ward S, Dawson E, Ponting L, et al. COSMIC: somatic cancer genetics at high-resolution. Nucleic Acids Res. 201745:D777–83.

Lawrence M, Stojanov P, Mermel C, Robinson J, Garraway L, Golub T, Meyerson M, Gabriel S, Lander E, Getz G. Discovery and saturation analysis of cancer genes across 21 tumour types. Natureza. 2014505:495–501.

Chen F, Zhang Y, Gibbons D, Deneen B, Kwiatkowski D, Ittmann M, Creighton C. Pan-cancer molecular classes transcending tumor lineage across 32 cancer types, multiple data platforms, and over 10,000 cases. Clin Cancer Res. 201824:2182–93.

Storey JD, Tibshirani R. Statistical significance for genomewide studies. Proc Natl Acad Sci U S A. 2003100:9440–5.

Hu X, Wang Q, Tang M, Barthel F, Amin S, Yoshihara K, Lang F, Martinez-Ledesma E, Lee S, Zheng S, Verhaak R. TumorFusions: an integrative resource for cancer-associated transcript fusions. Nucleic Acids Res. 201846:D1144–9.

Peifer M, Hertwig F, Roels F, Dreidax D, Gartlgruber M, Menon R, Krämer A, Roncaioli J, Sand F, Heuckmann J, et al. Telomerase activation by genomic rearrangements in high-risk neuroblastoma. Natureza. 2015526:700–4.

Creighton C, Hernandez-Herrera A, Jacobsen A, Levine D, Mankoo P, Schultz N, Du Y, Zhang Y, Larsson E, Sheridan R, et al. Integrated analyses of microRNAs demonstrate their widespread influence on gene expression in high-grade serous ovarian carcinoma. PLoS One. 20127:e34546.

Ungewiss C, Rizvi Z, Roybal J, Peng D, Gold K, Shin D, Creighton C, Gibbons D. The microRNA-200/Zeb1 axis regulates ECM-dependent β1-integrin/FAK signaling, cancer cell invasion and metastasis through CRKL. Sci Rep. 20166:18652.

Kiuru-Kuhlefelt S, Sarlomo-Rikala M, Larramendy M, Söderlund M, Hedman K, Miettinen M, Knuutila S. FGF4 and INT2 oncogenes are amplified and expressed in Kaposi’s sarcoma. Mod Pathol. 200013:433–7.

Weischenfeldt J, Dubash T, Drainas A, Mardin B, Chen Y, Stütz A, Waszak S, Bosco G, Halvorsen A, Raeder B, et al. Pan-cancer analysis of somatic copy-number alterations implicates IRS4 and IGF2 in enhancer hijacking. Nat Genet. 201749:65–74.

Godinho M, Meijer D, Setyono-Han B, Dorssers L, van Agthoven T. Characterization of BCAR4, a novel oncogene causing endocrine resistance in human breast cancer cells. J Cell Physiol. 2011226:1741–9.

Kim J, Piao H, Kim B, Yao F, Han Z, Wang Y, Xiao Z, Siverly A, Lawhon S, Ton B, et al. Long noncoding RNA MALAT1 suppresses breast cancer metastasis. Nat Genet. 201850:1705–15.

Yang X, Han H, De Carvalho D, Lay F, Jones P, Liang G. Gene body methylation can alter gene expression and is a therapeutic target in cancer. Cancer Cell. 201426:577–90.

Dixon J, Selvaraj S, Yue F, Kim A, Li Y, Shen Y, Hu M, Liu J, Ren B. Topological domains in mammalian genomes identified by analysis of chromatin interactions. Natureza. 2012485:376–80.

Andersson R, Gebhard C, Miguel-Escalada I, Hoof I, Bornholdt J, Boyd M, Chen Y, Zhao X, Schmidl C, Suzuki T, et al. An atlas of active enhancers across human cell types and tissues. Natureza. 2014507:455–61.

Taylor A, Shih J, Ha G, Gao G, Zhang X, Berger A, Schumacher S, Wang C, Hu H, Liu J, et al. Genomic and functional approaches to understanding cancer aneuploidy. Cancer Cell. 201833:676–89.

Knijnenburg T, Wang L, Zimmermann M, Chambwe N, Gao G, Cherniack A, Fan H, Shen H, Way G, Greene C, et al. Genomic and molecular landscape of DNA damage repair deficiency across The Cancer Genome Atlas. Cell Rep. 201823:239–54 1.

Bindea G, Mlecnik B, Tosolini M, Kirilovsky A, Waldner M, Obenauf A, Angell H, Fredriksen T, Lafontaine L, Berger A, et al. Spatiotemporal dynamics of intratumoral immune cells reveal the immune landscape in human cancer. Imunidade. 201339:782–95.

Thorsson V, Gibbs D, Brown S, Wolf D, Bortone D, Ou Yang T, Porta-Pardo E, Gao G, Plaisier C, Eddy J, et al. The immune landscape of cancer. Imunidade. 201848:812–30.

Mermel CH, Schumacher SE, Hill B, Meyerson ML, Beroukhim R, Getz G. GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. Genome Biol. 201112:R41.

Alaei-Mahabadi B, Bhadury J, Karlsson J, Nilsson J, Larsson E. Global analysis of somatic structural genomic alterations and their impact on gene expression in diverse human cancers. Proc Natl Acad Sci U S A. 2016113:13768–73.

Drier Y, Lawrence M, Carter S, Stewart C, Gabriel S, Lander E, Meyerson M, Beroukhim R, Getz G. Somatic rearrangements across cancer reveal classes of samples with distinct patterns of DNA breakage and rearrangement-induced hypermutability. Genome Res. 201323:228–35.

Esteller M. Epigenetics in cancer. N Engl J Med. 2008358:1148–59.

Eden A, Gaudet F, Waghmare A, Jaenisch R. Chromosomal instability and tumors promoted by DNA hypomethylation. Ciência. 2003300:455.

Coarfa C, Pichot C, Jackson A, Tandon A, Amin V, Raghuraman S, Paithankar S, Lee A, McGuire S, Milosavljevic A. Analysis of interactions between the epigenome and structural mutability of the genome using Genboree Workbench tools. BMC Bioinformatics. 201415(Suppl 7):S2.

Hajkova P, Jeffries S, Lee C, Miller N, Jackson S, Surani M. Genome-wide reprogramming in the mouse germ line entails the base excision repair pathway. Ciência. 2010329:78–82.

Laird P, Jaenisch R. DNA methylation and cancer. Hum Mol Genet. 19943 Spec No:1487–95.

James S, Pogribny I, Pogribna M, Miller B, Jernigan S, Melnyk S. Mechanisms of DNA damage, DNA hypomethylation, and tumor progression in the folate/methyl-deficient rat model of hepatocarcinogenesis. J Nutr. 2003133:3740S–7S.

Yung C, O'Connor B, Yakneen S, Zhang J, Ellrott K, Kleinheinz K, Miyoshi N, Raine K, Royo R, Saksena G, et al. Large-scale uniform analysis of cancer whole genomes in multiple computing environments. Preprint at. 2017. https://doi.org/10.1101/161638.

Wala J, Shapira O, Li Y, Craft D, Schumacher S, Imielinski M, Haber J, Roberts N, Yao X, Stewart C, et al. Selective and mechanistic sources of recurrent rearrangements across the cancer genome. Preprint at. 2017. https://doi.org/10.1101/187609.

Chen K, Wallis J, McLellan M, Larson D, Kalicki J, Pohl C, McGrath S, Wendl M, Zhang Q, Locke D, et al. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. Métodos Nat. 20096:677–81.

Chen F, Zhang Y, Şenbabaoğlu Y, Ciriello G, Yang L, Reznik E, Shuch B, Micevic G, De Velasco G, Shinbrot E, et al. Multilevel genomics-based taxonomy of renal cell carcinoma. Cell Rep. 201614:2476–89.

Lee A, Ewing A, Ellrott K, Hu Y, Houlahan K, Bare J, Espiritu S, Huang V, Dang K, Chong Z, et al. Combining accurate tumor genome simulation with crowdsourcing to benchmark somatic structural variant detection. Genome Biol. 201819:188.

Fonseca N, Kahles A, Lehmann K-V, Calabrese C, Chateigner A, Davidson N, Demircioğlu D, He Y, Lamaze F, Li S, et al. Pan-cancer study of heterogeneous RNA aberrations. Preprint at. 2017. https://doi.org/10.1101/183889.

The_Cancer_Genome_Atlas_Research_Network. Comprehensive molecular characterization of clear cell renal cell carcinoma. Natureza. 2013499:43–9.

Johnson W, Rabinovic A, Li C. Adjusting batch effects in microarray expression data using empirical Bayes methods. Biostatistics. 20078:118–27.

Hoadley K, Yau C, Hinoue T, Wolf D, Lazar A, Drill E, Shen R, Taylor A, Cherniack A, Thorsson V, et al. Cell-of-origin patterns dominate the molecular classification of 10,000 tumors from 33 types of cancer. Célula. 2018173:291–304.

McCarroll S, Kuruvilla F, Korn J, Cawley S, Nemesh J, Wysoker A, Shapero M, de Bakker P, Maller J, Kirby A, et al. Integrated detection and population genetic analysis of SNPs and copy number variation. Nat Genet. 200840:1166–74.

Gerstung M, Jolly C, Leshchiner I, Dentro S, Rosado S, Rosebrock D, Mitchell T, Rubanova Y, Anur P, Yu K, et al. The evolutionary history of 2,658 cancers. Preprint at. 2018. https://doi.org/10.1101/161562.

Xie C, Leung Y, Chen A, Long D, Hoyo C, Ho S. Differential methylation values in differential methylation analysis. Bioinformática. 201935:1094–7.

Creighton C, Nagaraja A, Hanash S, Matzuk M, Gunaratne P. A bioinformatics tool for linking gene expression profiling results with public databases of microRNA target predictions. RNA. 200814:2290–6.

Saldanha AJ. Java Treeview--extensible visualization of microarray data. Bioinformática. 200420:3246–8.

Zhang Y, Yang L, Kucherlapati M, Chen F, Hadjipanayis A, Pantazi A, Bristow C, Lee E, Mahadeshwar H, Tang J, et al. R-code for linear models integrating expression data with somatic structural data. Github. 2019 https://github.com/chadcreighton/SV-expression_integration.


Métodos

Haploproficient genes and orthology analysis

The set of S.cerevisiae genes which are haploproficient in turbidostat culture was obtained using the growth data of [8] and an FDR cutoff of 0.02. This stringent FDR cut-off rigorously defines those genes for which heterozygosity confers a strong fitness advantage, but has no effect on the functional enrichment of genes identified as haploproficient. Genes defined as ‘haploproficient’ for the purposes of this study are listed in Additional file 1: Table S1. The set of chromosome maintenance-associated HP genes described in [8] overlaps, but is not coincident, with the HPGI set studied here, since the current set also includes DNA damage-response genes.

Orthology assignments were made using the InParanoid algorithm [50] and compared with the results of a BLAST [51] reciprocal best-hits search. GO enrichment searches were performed using the Babelomics 4 FatiGO tool [52]. To assess the significance of HP gene conservation, the number of HP genes having orthologs in a given Ascomycete species, given the number of S. cerevisiae HP genes, was compared against the whole-genome conserved proportion using a χ 2 or Fisher exact test (depending on sample size), with the null hypothesis of identical distribution. All findings of significance were reiterated using a Z test for difference of proportions. Where necessary, P values were corrected for multiple testing using the Bonferroni correction. Cell cycle and DNA damage repair pathways were obtained from the KEGG pathway database [53].

Expression data for S.cerevisae genes was obtained from the Saccharomyces Genome Database [54] and protein expression levels from [55]. A list of human cancer genes/oncogenes was obtained from the Cancer Gene Index [17] enrichment of HP genes amongst the orthologs was determined using a χ 2 test as above. CNV incidence across eight tumour types (breast invasive carcinoma, rectum adencarcinoma colon adenocarcinoma, kidney renal cell clear carcinoma, uterine corpus endometrioid carcinoma, glioblastoma multiforme, acute myeloid leukemia, lung adenocarcinoma, lung squamous cell carcinoma, serous cystadenocarcinoma) as measured by comparative genomic hybridisation, was obtained from the NCI Cancer Genome Atlas online data browser [17] with a copy number (log2 ratio) of magnitude Ϡ.5 taken as the significance threshold. Details of the sampling and analysis of the tumour samples are described in [17]. UMA P-value for HP ortholog overrepresentation was calculated using a χ 2 test .The TGCA database was also used to perform a pathway search for overrepresentation of HP orthologs.

Yeast strains

In total, 30 HP genes were chosen for analysis, based upon the criteria discussed in the Results above. The heterozygous deletion mutant of each gene was obtained from the heterozygous diploid deletion library (Open Biosystems), in the BY4743 (ESTEIRAuma/α, his3D1/his3D1, leu2D0/leu2D0, LYS2/lys2D0, met15D0/MET15, ura3D0/ura3D0) genetic background. For non-essential genes, the homozygous deletant was retrieved from the analogous homozygous diploid deletion library (Open Biosystems).

Control strains were the BY4743 WT, along with the heterozygous deletion mutant of the non-functional his3 locus the non-HP, non-cell cycle ho/HO heterozygous deletion strain and the heterozygous deletion mutant of the non-HP, cell cycle gene HSL1. In addition, heterozygous deletion mutants of the G1 and G2 cyclins were included in several of the experiments. A complete list of the strains used is provided in Additional file 6: Table S6.

Cell-cycle profiling

Flow cytometric analysis of the deletion strains’ cell cycle profiles was carried about following the method of [56]. Brevemente,

10 7 cells in mid-exponential phase were harvested, washed, and fixed in absolute ethanol at 4C overnight. Fixed cells were then collected, washed, and boiled for 15 minutes in 2 mg/mL RNAse in 50 mM Tris-Cl (pH 8), and incubated at 37C for 2� hours. Cells were resuspended in protease solution (5 mg/mL pepsin, 4.5 μL/mL concentrated HCl), incubated for 15 minutes at 37C and resuspended in 50 mM Tris (pH 7.5). For analysis, 50 mL of cell suspension was added to 1 mL of 1 mM Sytox Green in 50 mM Tris pH 7.5), vortexed and analysed using a Cyan flow cytometer (Beckman Coulter). FlowJo (Tree Star) analysis software was used to fit histograms to the peaks representing 1C and 2C DNA content, and thereby calculate the number of cells in the G1 and G2 phases, and infer the number in S phase from the remaining fraction of the population.

Chronological lifespan assay

Cultures were inoculated from frozen stocks, grown overnight in YPD at 3ଌ, and 200mL of each was transferred into a well of a 96-well microtiter plate (Corning). Strains were present in duplicate on each plate, with a buffer of WT in the wells around the edge of the plate, so edge effects would not impact test colony measurements. A Singer Rotor HDA colony pinning robot was used to spot four replicates of each well onto a YPD +� μg/mL phloxine B (Sigma) plate. Phloxine B is a fluorescein derivative taken up when the cell membrane is disrupted upon cell death [57]. Plates were incubated for 48 hours at 3ଌ and photographed using an Epson 1240 Scanner. The colony images were analysed using a custom image-analysis code written in MatLab, with colony size measured by pixel count, and fraction of dead cells by the intensity of colony redness [10]. Since these parameters are independent, this allowed the dissection of the effect of cell viability upon colony growth from that of growth rate variation. The 96-well liquid cultures were incubated at 3ଌ, and, every second day over a period of three weeks, the colony-pinning onto YPD + phloxine B and image analysis repeated. For each plate, the median culture intensity for each strain was compared with the growth of the WT on that plate, and also with the strain growth and viability after the initial 48-hour period. The experiment was performed twice.

At several points throughout the 3-week period, several strains were selected at random, and viability assayed by performing serial dilutions and counting colony-forming units. These results were checked for compatibility with the microplate viability results.

Apoptosis assays

The rate of occurrence of apoptosis in the different strain populations was measured in two ways. Apoptosis was first induced by pretreating cells with 0.001%, 0.01% MMS, 0.0001% or 0.001% TBHP in overnight culture keeping a negative, non-induced WT control sample.

The translocation of phosphatidyl serine to the cell surface, a marker of apoptosis [58], was measured using an Annexin V-FITC Apoptosis Detection kit. (Sigma). Cells were harvested, washed in 1.2M sorbitol, 0.5 mM MgCl2, 35 mM K phosphate (pH 6.8) and then digested in 5.5% glusulase (Sigma) and 15 U/mL lyticase (Sigma) for 2 hours at 28C. Spheroplasts were harvested, washed in binding buffer (10 mM Hepes/NaOH pH 7.4, 140 mM NaCl, 2.5 mM CaCl2 in 1.2 M sorbitol buffer) and resuspended in binding buffer/sorbitol. 5 mL of FITC-labelled annexin V, and 10 mL of 10010 mg/mL propidium iodide were added to each sample, with control samples containing 1.) no label, 2.) FITC-annexin V only, and 3.) PI only. Fluorescence was quantified using a CyAn (Beckman Coulter). Gates were fitted on the basis of the the control samples, dividing a log PI versus log FITC plot into four quadrants: lower left (neither FITC nor PI-stained) – viable cells upper left (PI stain only) – necrotic cells lower right (FITC only) – early apoptotic cells and upper right (PI and FITC-stained) – late apoptotic cells. FlowJo software (TreeStar) was used to count the fraction of the total cell population in each quadrant. The proportion of both necrotic and apoptotic cells for each strain was normalised to strain viability (i.e. on the basis of the proportion of cells assigned to the lower-left FITC/PI quadrant), and the ratio of necrotic:apoptotic cells calculated. Ratios for each strain were normalised to the WT value, and the standard deviation across all samples calculated. Strains having a necrosis:apoptosis ratio further than 1.5x this standard deviation from WT levels were deemed to demonstrate abnormal apoptosis rates.

Growth rate and drug sensitivity assays

Growth and drug sensitivity assays were performed both on solid media and in liquid cultures. For solid assays, the required drug concentration was added to YPD-agar containing 10μg/m/mL phloxine B. Overnight cultures of the strains were spotted onto the (drug-containing) plates using a Singer rotor, as above. Plates were incubated at 3ଌ and photographed at 24 and 48 hours and analysed using an image-processing code as described above. Strain growth and viability was compared both with WT growth on the same plate, and with growth on YPD-agar (or YPD-agar plus DMSO, where the drug is DMSO-soluble). The ratio of viability and size with and without drug was calculated for every strain on a plate, and the standard deviation of all ratios calculated. Strains having a drug:untreated ratio greater than or less than two standard deviations from that of the WT were deemed to be resistant and sensitive, respectively.

Assays in liquid culture were performed by transferring 5mL of overnight culture into each well of a 96-well microtitre plate, containing 200 μL of YPD plus the required concentration of drug. Absorbance was measured for 30 hours at 3ଌ using a BMG Optima platereader, maximum growth rate calculated using a curve-fitting script written in R, and the growth rate for each strain compared with that of the WT in the same plate, and growth in YPD/YPD +𠂝MSO.


2. Métodos

This section proposes an expanded graph database model that includes the gene expression, miRNA expression, DNA methylation, copy number gain and loss information, tissue slide information, and mutation data from TCGA. It also outlines the steps performed to create the proposed graph database model.

2.1. Dados

For this study, we have specifically added copy number information, miRNA expression, and image information of the tissue slide to the previously stored clinical information, gene expression (log2 counts per million), hyper and hypomethylation information, and mis-sense mutation data from the Genomics Data Commons (GDC) for breast cancer (BRCA), prostate adenocarcinoma (PRAD), and the pancreatic adenocarcinoma (PAAD). Table 1 shows the summary information about the data set used for this study.


Assista o vídeo: Bancos de dados biológicos (Fevereiro 2023).