Criar e testar dados para garantir a sua aplicabilidade positiva em diversos domínios, nomeadamente na saúde

Depois de se ter formado em Engenharia Biomédica, a Miriam Santos escolheu o doutoramento em Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra (FCTUC) para experimentar e concretizar novas ideias que nasceram da sua curiosidade pela programação. Está prestes a defender o projeto de investigação Research Problems in Data Quality: Addressing Imbalanced and Missing Data, orientado por Pedro Henriques Abreu, do Departamento de Engenharia Informática da FCTUC, e coorientado por João Santos, do Instituto Português de Oncologia do Porto, um ciclo que quer encerrar com balanço positivo como investigadora, mas também como pessoa. Neste caminho de exploração e de aprendizagem, onde percebeu de perto a falta de proximidade entre mulheres e programação, criou o projeto As Raparigas do Código, uma organização que dá formação gratuita a mulheres e jovens na área da programação para que possam saber mais e seguir caminho nesta área tecnológica.

Qual é o objetivo do teu projeto de investigação?

O maior chapéu que cobre a minha investigação é aquilo que se chama inteligência artificial centrada nos dados. E para clarificar o termo, partilho alguns exemplos que podem ajudar a perceber o que estou a trabalhar. Neste momento, temos inteligência artificial e os algoritmos de aprendizagem automática (aquilo a que chamamos machine learning) presentes no nosso quotidiano. Acordamos porque há uma aplicação que analisa os nossos padrões de sono e nos diz que aquela é a altura menos disruptiva para começar o nosso dia. E quando vamos para o trabalho, seguimos uma rota que é recomendada com base nos padrões que o algoritmo também analisa. Quando estamos no trabalho, a nossa aplicação de e-mail filtra automaticamente o SPAM para que sejamos mais eficientes. E, no final do dia, ainda podemos ir a um blind date, com uma pessoa que foi escolhida através de uma aplicação que temos no telemóvel para marcar encontros.

Nas últimas décadas, a comunidade científica esteve muito preocupada em desenvolver e estudar estes algoritmos, porque todos têm os seus pontos fortes e os seus vieses. E o que agora se está a notar é uma mudança desse paradigma, em que os dados passam a ser o elemento central. Isto traduz-se na garantia da qualidade dos dados, que alimentam os algoritmos (como os que referi anteriormente) para que as recomendações que eles produzem sejam justas, sejam mais acertadas e que, portanto, tenham um maior impacto nas nossas atividades. É neste contexto que entra o meu projeto de investigação.

A ideia global é: sem bons ovos, não se faz um bom bolo, mesmo que o forno seja muito bom. Ou seja, aquilo com que alimentamos os algoritmos vai produzir um resultado quase direto nas previsões que eles nos devolvem. E eu trabalho nesta área, garantindo que os dados têm a maior qualidade possível para que o processo possa decorrer partindo da melhor base.

Como é que decorre esse processo de partilhar e aprimorar os dados que vão ser usados pelos algoritmos?

Toda a investigação acaba por ser uma experimentação exaustiva de hipóteses. Face a um conjunto de dados, eu pergunto “E se isto acontecesse desta forma? E se estes dados tivessem este problema?”. E, neste contexto, vou reunir um conjunto grande de dados e introduzo problemas artificialmente, de várias formas e em vários graus de complexidade, para que depois seja possível usar algoritmos de pré-processamento para resolver e mitigar os problemas e, por fim, compará-los uns com os outros. No final, olho para os comportamentos e resultados obtidos e tento recomendar um conjunto de metodologias específicas para um determinado problema com características muito próprias.

O que estás a trabalhar pode ter aplicabilidade em qualquer área?

Sim. Venho da área de Engenharia Biomédica e o meu projeto começou por tratar um problema específico: o cancro da mama. É um contexto de trabalho que pode ter diversos problemas, tais como a existência de poucos dados (small data) e dados desequilibrados (imbalanced data), porque existem subtipos de tumores para os quais é difícil ter uma representação numa base de dados, porque são cancros raros (como o cancro da mama num homem ou metaplásico); e há também muita suscetibilidade a dados em falta (missing data), por serem informações que são manuseadas por várias pessoas dentro das instituições.

À medida que a investigação foi seguindo em frente, um dos problemas que se colocou foi a generalização: como é que os métodos que estamos a estudar vão ser transpostos para outros contextos. Comecei a pensar nisso e a perceber que os métodos eram transversais a diversas áreas. Todos os domínios do saber geram dados e esses dados têm que ter um mínimo de qualidade para serem utilizados com sucesso. Portanto, por todas estas razões que elenquei, sim, há a possibilidade de aplicação em várias áreas, como Finanças ou Medicina e em domínios técnicos, como a identificação de fraude ou deteção de anomalias em redes.

Ouvimos falar muito sobre proteção de dados. À luz desta proteção da privacidade, como é que se garante a anonimização de informação no contexto em que trabalhas?

Procuramos sempre fazer com que os dados não sejam rastreáveis e que não seja possível associá-los à pessoa. Os dados são anonimizados para que não haja forma de acontecer essa identificação. No caso do meu trabalho, uso muito dados sintéticos que podem não ter uma representação no mundo real. E existe também uma corrente de investigação que pega em dados reais, de um problema concreto, e passa-os num processo que vai gerar um espaço latente de dados sintéticos. Ou seja, é como fosse criado um clone daquele conjunto de dados, que agrega a mesma informação, sendo impossível criar qualquer tipo de ligação com os dados originais ou com o portador dos dados.

Quando ingressaste no ensino superior, imaginaste que seria este o teu percurso académico?

Quando ingressei em Engenharia Biomédica, no primeiro ano na Universidade de Coimbra, não sabia muito bem como funcionaria esta área. Naquela altura (e ainda hoje), existia a ideia de que os bons alunos da área das Ciências deviam seguir carreira na área da Medicina e seus derivados. E acabei também por seguir esse caminho, embora me tenha ligado mais a uma área relacionada tecnologia, que era excitante e nova. Nunca tinha tido este contacto com a tecnologia e a programação, porque só tive o meu primeiro computador no 12.º ano.

Nos primeiros anos do curso, comecei a perceber que tinha jeito para a área e a ganhar interesse. E fui pensando na possibilidade de explorar mais. Por isso, quando chegou a altura de fazer a parte do mestrado, vim aqui para o Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra para me especializar em Informática Clínica e Bioinformática. Trabalhei com uma equipa multidisciplinar, que tinha pessoas da área da Ciência de Dados e também profissionais da Medicina, e trabalhámos num contexto real, com doentes com cancro do fígado, para produzirmos vários modelos de recomendação de tratamentos e modelos de previsão de sobrevivência. Achei esta experiência tão, tão interessante! E com a possibilidade de produzir o meu primeiro artigo científico acho que tomei um bocadinho o gosto pela investigação. Assim que entreguei a tese de mestrado, já estava a inscrever-me no doutoramento e comecei no mesmo ano.

A tua ligação com a programação deu também origem ao projeto As Raparigas do Código, que promove o contacto e a formação de mulheres e jovens em áreas tecnológicas. Como é que nasceu a ideia de construir esta comunidade?

Eu e alguns colegas tínhamos a ideia de levar a tecnologia mais cedo às jovens. Nos últimos anos, começou a existir essa preocupação de promover a igualdade de género nas engenharias e na tecnologia. E comecei a perceber que o distanciamento entre as mulheres e estas áreas não se prendia com a falta de interesse delas, mas antes com a falta de contacto e de oportunidades no setor para elas. Comecei também a ver, a cada passo que dava nesta escadaria que é a academia, o número de mulheres a diminuir. E pensei que era preciso mudar esta realidade.

As Raparigas do Código começou por ser só uma comunidade para troca de informação e para dar apoio. Entretanto, agora é uma organização sem fins lucrativos, que dá aulas de programação a jovens e a mulheres que tenham interesse pela área. Apoiamos mulheres que têm projetos pessoais em que é necessário aprender a programar, mulheres em situação de desemprego e que queiram mudar ou melhorar a sua carreira, jovens do ensino secundário, como também do ensino superior. Todos os workshops e minicursos que promovemos são gratuitos.

Atualmente, estamos numa fase em que temos conseguido reunir vários parceiros da indústria que estão disponíveis para receber estas mulheres nos seus espaços de trabalho, através de, nomeadamente, estágios profissionais. E temos também empresas que se querem associar à organização para oferecer formação e certificações às trabalhadoras nesta área da tecnologia.

Quais são os maiores desafios do processo de construção de um projeto de investigação de doutoramento?

Acho que entramos sempre a achar que é um mar de rosas, porque temos uma grande liberdade de propor o nosso projeto, as nossas ideias, de levar as nossas paixões e sonhos para a frente. No meio de tudo isto, acho que a maior dificuldade é saber lidar com a outra face da moeda: a falha, a rejeição e a crítica.

Acho que todo o processo de um doutoramento acaba por ser uma lição de humildade. Temos que saber lidar com o erro que vai demorar tempo a corrigir ou com o crítico, que não sabemos quem é, que não percebeu o nosso trabalho ou que não gostou ou que simplesmente tem uma visão diferente. É preciso ter a capacidade de lidar com isso, mas acho que faz parte do caminho. E isso pode contribuir para sermos melhores professores, melhores investigadores e até melhores pessoas, porque nos ajuda a perceber como lidar com o erro e como criticar construtivamente, sempre com o intuito de ajudar os outros a melhorar o seu trabalho e o seu caminho.

Lidar com a ansiedade é também um desafio. A liberdade é muito boa, mas, por outro lado, sabemos que alguém no mundo está a desenvolver o mesmo projeto de investigação, noutras condições, e se calhar vai chegar a uma conclusão mais cedo, que pode ser melhor que a nossa. E esse processo de querer muito colocar o nosso trabalho fora de portas acaba por criar uma certa obsessão com a novidade e isso leva a que alguns trabalhos possam ser produzidos quase sem estarem completamente maturados. Talvez esta ansiedade possa ser o mais assustador neste processo de fazer um doutoramento.

Que conselhos partilharias com estudantes que estão também a desenvolver um projeto de investigação?

Inicialmente, estamos muito preocupados em produzir e em ter resultados científicos publicados em grandes revistas, e temos aquela ideia de tentar ser o melhor dos melhores, porque estamos inseridos num meio que é muito competitivo. E agora, no final da jornada, percebo que muitas das coisas que mais levamos deste caminho não estão relacionadas com o nosso projeto de investigação.

Uma das aprendizagens que levo é permitir-me manter a vulnerabilidade, admitindo que estou assustada, que tenho medo de ser rejeitada, que fico nervosa com uma apresentação e com a opinião das pessoas sobre o meu trabalho. Também foi importante perceber que é fundamental que as pessoas que gostam de nós nos rodeiem e nos relembrem que o nosso valor não está associado à nossa investigação e que nos ajudem a festejar as pequenas vitórias, e a cultivar interesses diferentes do que trabalhamos na investigação. É importante que nos relembrem que o resultado deste processo não é apenas uma tese ou artigos científicos, mas antes que o que fica é também a pessoa que somos e que fomos ao longo de todo este processo.

Produção e Edição de Conteúdos: Catarina Ribeiro, DCOM e Inês Coelho, DCOM

Fotografia: Ana Bartolomeu, DCOM

Edição de Imagem: Sara Baptista, NMAR

Publicado a 25.08.2022

Do you accept the use of cookies?

Criar e testar dados para garantir a sua aplicabilidade positiva em diversos domínios, nomeadamente na saúde﻿

Criar e testar dados para garantir a sua aplicabilidade positiva em diversos domínios, nomeadamente na saúde