Visao geral
O CV de um cientista de dados em Portugal enfrenta um desafio particular: o mercado esta saturado de pessoas que fizeram um curso online de machine learning, mas escasso em profissionais que colocaram modelos em producao a escala. A diferenca entre os dois esta no CV. Quem trabalha com modelos reais fala em accuracy, latencia, volume de dados e impacto no produto. Quem nao trabalha fala em "experiencia com TensorFlow."
Este CV pertence a Mariana Duarte, cientista de dados com cinco anos de experiencia. Na Talkdesk, construiu modelos de NLP que classificam automaticamente 14 milhoes de interacoes mensais. Antes esteve na Feedzai a trabalhar em detecao de fraude e no INESC-ID em investigacao de NLP para portugues europeu.
O percurso investigacao > startup unicornio > scaleup tech e a trajetoria que o mercado portugues valoriza mais neste momento.
Resumo: modelos em producao, nao em notebook
Cientista de dados com cinco anos de experiencia no desenvolvimento de modelos de machine learning para problemas de negocio em larga escala. Na Talkdesk, construi modelos de NLP que classificam automaticamente 14 milhoes de interacoes mensais de suporte.
A expressao "14 milhoes de interacoes mensais" separa imediatamente a Mariana de quem trabalha apenas com datasets de demonstracao. O resumo nao menciona frameworks nem linguagens. Fala em escala e em impacto no produto.
Experiencia: accuracy, escala e pipelines
Na Talkdesk:
Modelo de classificacao de intencoes em NLP que processa 14 milhoes de interacoes/mes com accuracy de 91%
Pipeline de MLOps com MLflow e Kubeflow para 8 modelos em producao
Modelo de previsao de churn que identificou 73% dos cancelamentos com 30 dias de antecedencia
Reduzi tempo de treino de modelos em 58% migrando para GPUs na AWS
Cada ponto tem uma metrica de performance (91% accuracy, 73% recall, 58% reducao de tempo). Os 8 modelos em producao mostram que nao se trata de experiencias isoladas, mas de um sistema operacional completo.
Na Feedzai, a detecao de fraude com precision de 96% e datasets de 2,3 mil milhoes de transacoes mostra capacidade de trabalhar com dados a escala industrial.
No INESC-ID, as publicacoes em ACL e EMNLP sao conferencias de tier 1 em NLP. Isto posiciona a Mariana como alguem com fundamentos cientificos solidos, nao apenas skills praticos.
Formacao: IST e premios
O Mestrado em Ciencia de Dados e Engenharia pelo IST com 18 valores e a Licenciatura em Matematica Aplicada e Computacao com premio de melhor aluna mostram excelencia academica. O IST e a referencia em engenharia e ciencias de dados em Portugal. A base em matematica e particularmente valorizada porque muitos cientistas de dados vem de formacoes mais aplicadas e carecem de fundamentos teoricos.
Certificacoes: AWS e TensorFlow
A AWS Certified Machine Learning Specialty e a certificacao mais relevante para quem trabalha com modelos em producao na cloud. O TensorFlow Developer Certificate valida competencias praticas no framework mais usado para deep learning.
Em Portugal, as empresas tech (Talkdesk, Feedzai, Farfetch, OutSystems) usam predominantemente AWS ou GCP. Se trabalhas com uma destas clouds, a certificacao correspondente tem valor real no mercado.
Competencias: profundidade, nao largura
A lista da Mariana e focada: Python com as frameworks certas (scikit-learn, TensorFlow, PyTorch), NLP com as bibliotecas de referencia (Hugging Face, spaCy), MLOps com as ferramentas atuais (MLflow, Kubeflow), e cloud com AWS. Nao tenta listar todas as tecnologias possiveis. Lista as que realmente usa.
Erros comuns em CVs de cientistas de dados
Listar modelos sem metricas. "Desenvolvi modelo de classificacao" e insuficiente. "Modelo com accuracy de 91% processando 14M interacoes/mes" e completo.
Confundir analise de dados com ciencia de dados. Se o teu trabalho e maioritariamente SQL e dashboards, es analista de dados. Se constroris e implementas modelos de ML em producao, es cientista de dados. Sê honesto sobre o nivel.
Nao mostrar MLOps. Em 2026, construir um modelo num Jupyter notebook nao basta. As empresas querem saber se sabes colocar modelos em producao, monitoriza-los e atualiza-los. Se tens experiencia com MLflow, Kubeflow, SageMaker ou similares, destaca-a.
Ignorar publicacoes. Se tens papers em conferencias ou journals, inclui-os. Na ciencia de dados, publicacoes sao credenciais fortes.
O corpus como contribuicao
A criacao de um corpus de sentimento em portugues europeu com 45.000 frases, citado em 12 artigos internacionais, e o tipo de contribuicao que transcende um emprego especifico. Mostra impacto na comunidade. Se contribuiste para projetos open source, datasets publicos ou ferramentas da comunidade, isso merece lugar no CV.







