O aprendizado federado permite big data para detecção de limite de câncer raro

Nature Communications volume 13, Número do artigo: 7346 (2022) Citar este artigo

18k acessos

16 Citações

341 Altmétrico

Detalhes das métricas

Uma correção do autor para este artigo foi publicada em 26 de janeiro de 2023

Este artigo foi atualizado

Embora o aprendizado de máquina (ML) tenha se mostrado promissor em todas as disciplinas, a generalização fora da amostra é preocupante. Atualmente, isso é resolvido por meio do compartilhamento de dados em vários locais, mas essa centralização é desafiadora/impossível de escalar devido a várias limitações. O Federated ML (FL) fornece um paradigma alternativo para ML preciso e generalizável, compartilhando apenas as atualizações do modelo numérico. Aqui apresentamos o maior estudo de FL até o momento, envolvendo dados de 71 locais em 6 continentes, para gerar um detector automático de limite de tumor para a doença rara de glioblastoma, relatando o maior conjunto de dados desse tipo na literatura (n = 6, 314). Demonstramos uma melhoria de delineamento de 33% para o tumor alvo cirurgicamente e 23% para a extensão completa do tumor, em relação a um modelo treinado publicamente. Prevemos que nosso estudo: 1) permita mais estudos de saúde informados por dados diversos, garantindo resultados significativos para doenças raras e populações sub-representadas, 2) facilite análises adicionais para glioblastoma liberando nosso modelo de consenso e 3) demonstre a eficácia do FL em tais escala e complexidade da tarefa como uma mudança de paradigma para colaborações multi-site, aliviando a necessidade de compartilhamento de dados.

Avanços tecnológicos recentes na área da saúde, juntamente com a mudança da cultura dos pacientes de reativa para proativa, resultaram em um crescimento radical das observações primárias geradas pelos sistemas de saúde. Isso contribui para o esgotamento dos especialistas clínicos, pois tais observações requerem uma avaliação minuciosa. Para aliviar esta situação, tem havido inúmeros esforços para o desenvolvimento, avaliação e eventual tradução clínica de métodos de aprendizado de máquina (ML) para identificar relações relevantes entre essas observações, reduzindo assim a carga sobre os especialistas clínicos. Os avanços no ML, e particularmente no aprendizado profundo (DL), mostraram-se promissores na abordagem desses complexos problemas de saúde. No entanto, há preocupações sobre sua generalização em dados de fontes que não participaram do treinamento do modelo, ou seja, dados "fora da amostra"1,2. A literatura indica que o treinamento de modelos robustos e precisos requer grandes quantidades de dados3,4,5, cuja diversidade afeta a generalização do modelo para casos "fora da amostra"6. Para abordar essas preocupações, os modelos precisam ser treinados em dados provenientes de vários locais que representam diversas amostras populacionais. O paradigma atual para tais colaborações em vários locais é o "aprendizado centralizado" (CL), no qual dados de diferentes locais são compartilhados em um local centralizado seguindo acordos entre locais6,7,8,9. No entanto, essa centralização de dados é difícil de escalar (e pode até não ser viável), especialmente em escala global, devido a preocupações10,11 relacionadas à privacidade, propriedade de dados, propriedade intelectual, desafios técnicos (por exemplo, limitações de rede e armazenamento), bem como conformidade com diversas políticas regulatórias (por exemplo, Health Insurance Portability and Accountability Act (HIPAA) dos Estados Unidos12 e o General Data Protection Regulation (GDPR) da União Europeia13). Em contraste com esse paradigma centralizado, "aprendizagem federada" (FL) descreve um paradigma em que os modelos são treinados apenas compartilhando atualizações de parâmetros do modelo de dados descentralizados (ou seja, cada local retém seus dados localmente)10,11,14,15,16, sem sacrificar o desempenho quando comparado a modelos treinados em CL11,15,17,18,19,20,21. Assim, o FL pode oferecer uma alternativa ao CL, potencialmente criando uma mudança de paradigma que alivia a necessidade de compartilhamento de dados e, portanto, aumenta o acesso a colaboradores geograficamente distintos, aumentando assim o tamanho e a diversidade dos dados usados para treinar modelos de ML.

0.067, Wilcoxon signed-rank test) ones between the preliminary and the final consensus model, as quantified in the centralized out-of-sample data for all sub-compartments and their average (Fig. 2)./p> 200 cases. Note the box and whiskers inside each violin plot, represent the true min and max values. The top and bottom of each "box" depict the 3rd and 1st quartile of each measure. The white line and the red ‘×’, within each box, indicate the median and mean values, respectively. The fact that these are not necessarily at the center of each box indicates the skewness of the distribution over different cases. The "whiskers'' drawn above and below each box depict the extremal observations still within 1.5 times the interquartile range, above the 3rd or below the 1st quartile. Equivalent plots for Jaccard similarity coefficient (JSC) can be observed in supplementary figures./p> 200 cases, and familiar with computational analyses), and coordinated independent model training for each, starting from the public initial model and using only their local training data. The findings of this evaluation indicate that the final consensus model performance is always superior or insignificantly different (pAverage = 0.1, pET = 0.5, pTC = 0.2, pWT = 0.06, Wilcoxon signed-rank test) to the ensemble of the local models of these four largest contributing collaborators, for all tumor sub-compartments (Fig. 2). This finding highlights that even large sites can benefit from collaboration./p>200 cases) by starting from the same public initial model and using only their local training data. The ensemble of these four largest site local models did not show significant performance differences to the final consensus model for any tumor sub-compartment, yet the final consensus model showed superior performance indicating that even sites with large datasets can benefit from collaboration. The underlying assumption for these results is that since each of these collaborators initiated their training from the public initial model (which included diverse data from 16 sites), their independent models and their ensemble could have inherited some of the initial model's data diversity, which could justify the observed insignificant differences (Fig. 2 and Supplementary Fig. 3). Though these findings are an indication that the inclusion of more data alone may not lead to better performance, it is worth noting that these four largest sites used for the independent model training represent comprehensive cancer centers (compared to hospitals in community settings) with affiliated sophisticated labs focusing on brain tumor research, and hence were familiar with the intricacies of computational analyses. Further considering the aforementioned ML performance stagnation effect, we note the need for generalizable solutions to quantify the contribution of collaborating sites to the final consensus model performance, such that future FL studies are able to formally assess both the quantity and the quality of the contributed data needed by the collaborating sites and decide on their potential inclusion on use-inspired studies./p>200 training cases, and performed a comparative evaluation of the consensus model with an ensemble of these "single site models". The per voxel sigmoid outputs of the ensemble were computed as the average of such outputs over the individual single-site models. As with all other models in this study, binary predictions were computed by comparing these sigmoid outputs to a threshold value of 0.5. The single-site model ensemble utilized (via the data at the single site) approximately 33% of the total data across the federation./p>