O Grupo de Bioinformática e Aprendizado de Máquina foi fundado em 2015, no Departamento de Ciência da Computação da Universidade Federal de São Carlos, São Carlos, Brasil. Nosso foco de pesquisa é o desenvolvimento e a aplicação de métodos de aprendizado de máquina, principalmente para resolver problemas relacionados à biologia.
A Bioinformática é um campo de pesquisa que utiliza ciência da computação, estatística e matemática para entender e processar dados biológicos. Antes dos avanços da ciência da computação, os algoritmos de bioinformática tinham que ser explicitamente programados manualmente. Essa tarefa tornou-se extremamente difícil, pois a grande quantidade de dados gerados hoje em dia inviabiliza o processamento dessa quantidade de dados sem o uso de algoritmos automatizados. Nesse sentido, o Aprendizado de Máquina surgiu como um campo de pesquisa com enorme potencial de aplicações em bioinformática.
O Aprendizado de Máquina é um subcampo da ciência da computação que visa o uso de matemática e estatística para desenvolver algoritmos com a capacidade de aprender uma determinada tarefa. Esse aprendizado vem da capacidade do algoritmo de melhorar progressivamente o desempenho em uma tarefa específica usando dados de treinamento, sem ser explicitamente programado para executar a tarefa. Esses algoritmos têm a capacidade de fazer previsões e extrair padrões dos dados, e são aplicados a muitos campos da bioinformática, como genômica, proteômica e evolução.
Nossa pesquisa visa propor métodos de aprendizado de máquina para atender à crescente demanda de tarefas preditivas e descritivas em bioinformática, especialmente aquelas complexas que envolvem saídas múltiplas e estruturadas. Assim, nosso grupo tem um foco especial em métodos supervisionados para aprendizado com múltiplas saídas, usando redes neurais, métodos evolutivos, árvores de decisão, entre outros. Nossos principais tópicos investigados estão listados abaixo.
Predição de funções de proteínas: as proteínas podem executar várias funções simultaneamente e essas funções podem ser estruturadas em uma taxonomia hierárquica, como uma árvore ou um gráfico.
Localização subcelular de proteínas: as proteínas podem estar localizadas em diferentes locais da célula e esses locais influenciam diretamente as funções que a proteína desempenha.
Interação proteína-proteína: prever a interação entre proteínas é importante para entender suas funções. Interações múltiplas podem ocorrer entre proteínas.
Classificação de elementos transponíveis: elementos transponíveis são seqüências de DNA capazes de se mover ou copiar-se no genoma de uma célula. Existem muitos tipos diferentes desses elementos, organizados em uma taxonomia hierárquica. Sua identificação e predição são importantes para entender os papéis que eles desempenham nos genomas.
Predição de RNAs não codificantes: sabe-se que os RNAs não codificantes têm papéis importantes nos organismos. A identificação e predição corretas dessas seqüências são importantes para entender melhor seus papéis.
Predição de interações de alvo de microRNA: os microRNAs têm diferentes locais de destino. A predição dessas interações é importante para entender seus papéis nos organismos.
Análise de SNPs: o polimorfismo de nucleotídeo único é uma variação em um único nucleotídeo que ocorre em uma posição específica no genoma. SNPs diferentes podem influenciar em diferentes mutações e estar relacionados a diferentes doenças. Assim, a identificação e classificação desses SNPs é muito importante.
Além dos tópicos listados acima, nosso grupo também investiga métodos de aprendizado de máquina para muitas outras aplicações, como mineração de fluxo de dados, aprendizado ativo, aprendizado semi-supervisionado, classificação de padrões, otimização de múltiplos objetivos, classificação hierárquica e de rótulos múltiplos e classificação e regressão multi-target.