DESENVOLVIMENTO DE UM MODELO PREDITIVO IN SILICO PARA ESTIMATIVA DE TOXICIDADE DE MOLÉCULAS UTILIZANDO DADOS PÚBLICOS E INTELIGÊNCIA ARTIFICIAL
DOI:
https://doi.org/10.51891/rease.v12i1.23728Palavras-chave:
Toxicidade molecular. Inteligência artificial. Modelo preditivo in sílico.Resumo
Esse artigo buscou desenvolver um modelo preditivo in silico, em linguagem Python, para estimar a toxicidade de pequenas moléculas orgânicas utilizando dados públicos e técnicas de Inteligência Artificial. Para isso, foi construído um conjunto de dados com 200 moléculas contendo até 10 átomos de carbono, selecionadas no repositório PubChem, priorizando compostos halogenados e amínicos estruturalmente relacionados a cloroaminas e halometanos. Foram extraídos descritores estruturais e físico-químicos (como massa molar, tipo de cadeia, quantidade de halogênios, proporção halogênio/carbono, anéis alifáticos e aromáticos, carbonos quirais e função orgânica), além de uma variável-alvo binária de toxicidade. A modelagem foi conduzida em Google Colab, empregando Random Forest e regressão logística, com tratamento de desbalanceamento por SMOTENC e avaliação por holdout (70/30) e validação cruzada estratificada. O Random Forest apresentou desempenho global superior (accuracy 0,9333; balanced_accuracy 0,8693; ROC-AUC 0,9673), enquanto a regressão logística maximizou o recall (0,9804) e forneceu maior interpretabilidade, evidenciando maior risco associado à halogenação e à aromaticidade e efeito protetor de anéis alifáticos e de maior número de hidrogênios ligados ao nitrogênio. Conclui-se que o pipeline proposto é promissor para triagem toxicológica preliminar, embora a ampliação e a validação externa da base sejam essenciais para aumentar a robustez e a generalização dos modelos.
Downloads
Downloads
Publicado
Como Citar
Edição
Seção
Categorias
Licença
Atribuição CC BY