O aprendizado federado permite big data para detecção de limite de câncer raro
Nature Communications volume 13, Número do artigo: 7346 (2022) Citar este artigo
18k acessos
16 Citações
341 Altmétrico
Detalhes das métricas
Uma correção do autor para este artigo foi publicada em 26 de janeiro de 2023
Este artigo foi atualizado
Embora o aprendizado de máquina (ML) tenha se mostrado promissor em todas as disciplinas, a generalização fora da amostra é preocupante. Atualmente, isso é resolvido por meio do compartilhamento de dados em vários locais, mas essa centralização é desafiadora/impossível de escalar devido a várias limitações. O Federated ML (FL) fornece um paradigma alternativo para ML preciso e generalizável, compartilhando apenas as atualizações do modelo numérico. Aqui apresentamos o maior estudo de FL até o momento, envolvendo dados de 71 locais em 6 continentes, para gerar um detector automático de limite de tumor para a doença rara de glioblastoma, relatando o maior conjunto de dados desse tipo na literatura (n = 6, 314). Demonstramos uma melhoria de delineamento de 33% para o tumor alvo cirurgicamente e 23% para a extensão completa do tumor, em relação a um modelo treinado publicamente. Prevemos que nosso estudo: 1) permita mais estudos de saúde informados por dados diversos, garantindo resultados significativos para doenças raras e populações sub-representadas, 2) facilite análises adicionais para glioblastoma liberando nosso modelo de consenso e 3) demonstre a eficácia do FL em tais escala e complexidade da tarefa como uma mudança de paradigma para colaborações multi-site, aliviando a necessidade de compartilhamento de dados.
Avanços tecnológicos recentes na área da saúde, juntamente com a mudança da cultura dos pacientes de reativa para proativa, resultaram em um crescimento radical das observações primárias geradas pelos sistemas de saúde. Isso contribui para o esgotamento dos especialistas clínicos, pois tais observações requerem uma avaliação minuciosa. Para aliviar esta situação, tem havido inúmeros esforços para o desenvolvimento, avaliação e eventual tradução clínica de métodos de aprendizado de máquina (ML) para identificar relações relevantes entre essas observações, reduzindo assim a carga sobre os especialistas clínicos. Os avanços no ML, e particularmente no aprendizado profundo (DL), mostraram-se promissores na abordagem desses complexos problemas de saúde. No entanto, há preocupações sobre sua generalização em dados de fontes que não participaram do treinamento do modelo, ou seja, dados "fora da amostra"1,2. A literatura indica que o treinamento de modelos robustos e precisos requer grandes quantidades de dados3,4,5, cuja diversidade afeta a generalização do modelo para casos "fora da amostra"6. Para abordar essas preocupações, os modelos precisam ser treinados em dados provenientes de vários locais que representam diversas amostras populacionais. O paradigma atual para tais colaborações em vários locais é o "aprendizado centralizado" (CL), no qual dados de diferentes locais são compartilhados em um local centralizado seguindo acordos entre locais6,7,8,9. No entanto, essa centralização de dados é difícil de escalar (e pode até não ser viável), especialmente em escala global, devido a preocupações10,11 relacionadas à privacidade, propriedade de dados, propriedade intelectual, desafios técnicos (por exemplo, limitações de rede e armazenamento), bem como conformidade com diversas políticas regulatórias (por exemplo, Health Insurance Portability and Accountability Act (HIPAA) dos Estados Unidos12 e o General Data Protection Regulation (GDPR) da União Europeia13). Em contraste com esse paradigma centralizado, "aprendizagem federada" (FL) descreve um paradigma em que os modelos são treinados apenas compartilhando atualizações de parâmetros do modelo de dados descentralizados (ou seja, cada local retém seus dados localmente)10,11,14,15,16, sem sacrificar o desempenho quando comparado a modelos treinados em CL11,15,17,18,19,20,21. Assim, o FL pode oferecer uma alternativa ao CL, potencialmente criando uma mudança de paradigma que alivia a necessidade de compartilhamento de dados e, portanto, aumenta o acesso a colaboradores geograficamente distintos, aumentando assim o tamanho e a diversidade dos dados usados para treinar modelos de ML.