Procurar
Curso
16 Dez

Modelos Estatísticos Avançados com R para as Ciências Biológicas

Online – 20 horas; 16 a 20 de dezembro de 2024

Descrição do curso

A primeira sessão do curso é uma revisão da regressão linear e da análise de variância, as duas técnicas estatísticas que constituem a base dos modelos estatísticos mais importantes. Estes modelos estatísticos (GLM, GLZ e GAM) serão o conteúdo das próximas quatro sessões.

O GLM (Modelo Linear Geral) será estudado na segunda e terceira sessões. Devido à sua robustez e relativa simplicidade, este é o modelo estatístico mais utilizado. Por esta razão, no curso, passamos mais tempo com o GLM do que com os outros quadros de modelagem (GLZ, GAM). Através de exemplos trabalhados, serão explicados os seguintes tópicos: I) pressupostos do GLM, como testá-los e como resolver problemas quando alguns desses pressupostos não são cumpridos (transformação de dados para não normalidade, ajuste alternativo por mínimos quadrados generalizados para heterocedasticidade e autocorrelação residual); II) contraste de hipóteses para os efeitos principais e testes pós-hoc para os efeitos simples; III) visualização das previsões do modelo.

No GLM, será explicado com particular detalhe a inclusão de fatores aleatórios (modelos de efeitos mistos simples, desenhos hierárquicos e desenhos de inclinação aleatória).

Os GLZ (Modelos Lineares Generalizados) são uma extensão do GLM para distribuições de erro que podem ser diferentes da Gaussiana. Três exemplos trabalhados serão apresentados para diferentes distribuições (binomial, Poisson e binomial negativa, para dados superdispersos), e um exemplo simples que inclui fatores aleatórios.

Os GAM (Modelos Aditivos Generalizados) são um quadro estatístico que pode incorporar quaisquer características do GLM e do GLZ. Mas, além disso, e considerando restrições adicionais, podem incorporar funções suavizadas (não lineares, mas não paramétricas) para descrever a relação entre a variável resposta e uma ou várias variáveis preditoras. Este quadro estatístico tem ganho popularidade em diferentes áreas da ciência devido ao aumento do poder computacional nos últimos 20 anos.

É recomendado pelo menos um nível iniciante na linguagem R para este curso, assim como alguma familiaridade com técnicas estatísticas básicas (regressão, contraste de hipóteses, ANOVA). O curso é aberto a qualquer nível, desde estudantes de licenciatura a investigadores séniores. É considerado como a “segunda parte” de outro curso que é regularmente lecionado no CIIMAR, intitulado Introdução à Estatística com R para Ciências Biológicas.

 

Metodologia do curso

Os conteúdos do curso são breves introduções teóricas a cada tópico, seguidas de exemplos trabalhados na linguagem R, ao longo dos quais são mostradas todas as características do tópico específico. No final de cada secção, os alunos receberão dados para realizar exercícios que serão revistos e corrigidos durante as aulas.

As explicações teóricas, bem como os exemplos trabalhados, estão totalmente desenvolvidos em pdf, com scripts R contendo os exemplos como apoio adicional. O acesso a todo este material será fornecido dias antes do curso através de um link para a plataforma Open Science Framework. As soluções dos exercícios também serão entregues aos alunos até ao final do curso.

 

Objetivo geral do curso

Apresentação dos principais quadros de modelos estatísticos para compreender as diferenças entre eles e, consequentemente, os seus contextos específicos de aplicabilidade.

 

Objetivos específicos do curso

  • Compreender os princípios dos quadros de modelos estatísticos de forma a aplicá-los de acordo com as características dos dados.
  • Testar pressupostos do modelo com contrastes de hipóteses e gráficos de diagnóstico, e aprender a resolver problemas associados a este processo (transformação de dados, técnicas de ajuste alternativas, distribuições de erro alternativas, utilizando ajustes não lineares ou não paramétricos).
  • Compreender a diferença entre fatores aleatórios e fixos e as possíveis formas de incorporar fatores aleatórios no desenho do modelo.
  • Aprender sobre os diferentes contrastes de hipóteses que podem ser realizados num modelo estatístico (análise de variância e análise de desvios para os efeitos principais, Tukey, Dunnett, diferenças mínimas significativas, etc. para o pós-hoc).
  • Aprender os métodos mais padronizados para selecionar o melhor modelo entre uma série de candidatos ajustados aos mesmos dados.

 

Programa do Curso

Consulte o programa do curso aqui.

 

Inscrição

Preço: 250 € (200 € para membros do CIIMAR/U.Porto/CCMAR)

Inscrições: após o anúncio, até preencher 25 vagas disponíveis.

Passos para se inscrever:

  1. Pergunte por e-mail (abarreiro@ciimar.up.pt) se há vagas disponíveis.
  2. Registe-se através deste link.
  3. Envie o comprovativo de pagamento necessário para reservar a vaga (envie o comprovativo para abarreiro@ciimar.up.pt).
  4. Após o envio do comprovativo de pagamento, um e-mail de confirmação da inscrição será enviado.

 

Informações importantes:

  • Todo o curso será lecionado através da plataforma Zoom.
  • O curso será ministrado em inglês.
  • Recomenda-se um conhecimento básico em R e estatísticas.
  • Todas as informações e materiais necessários para o desenvolvimento do curso (instruções para instalar o R e pacotes R, pdf com o conteúdo das aulas, scripts com exemplos e exercícios, dados para exemplos e exercícios) serão disponibilizados a todos os participantes do curso através de um link para a plataforma Open Science Framework.

 

Instrutor

Aldo Barreiro Felpeto é investigador no Centro Interdisciplinar de Investigação Marinha e Ambiental (CIIMAR) associado à Universidade do Porto (Porto, Portugal). A sua carreira de investigação tem-se focado na ecologia do fitoplâncton. Defendeu a sua tese de doutoramento em 2007 no Departamento de Ecologia da Universidade de Vigo (Vigo, Espanha), sobre interações entre o zooplâncton e espécies de fitoplâncton tóxico da costa noroeste da Espanha, do mar Báltico sul e da costa sul do Tirreno. Entre 2008 e 2010, realizou um pós-doutoramento no Departamento de Ecologia e Biologia Evolutiva da Universidade Cornell (Ithaca, Nova Iorque, EUA). Desde 2011 é investigador no CIIMAR.

Desenvolveu uma forte formação em estatística e modelagem dinâmica com o software R, frequentando 10 cursos entre 2006 e 2018 e, desde 2013, organizando 14 edições de cursos sobre diferentes aspectos de estatística e programação com R, principalmente no CIIMAR, mas também na Universidade de Vigo (Espanha) e na Universidade de Magalhães (Chile). Co-autorizou dois livros sobre estatística e programação: Tratamiento de Datos (Ed. Díaz de Santos, Madrid, 2006) e Tratamento de Dados com R, SPSS e ESTATÍSTICA (Ed. Díaz de Santos, Madrid, 2010).

Devido à sua experiência em estatística e programação, desenvolveu colaborações em diferentes áreas da ecologia, mas também nas ciências ambientais e biologia molecular. Publicou 60 artigos, tendo um índice h de 27 e um índice i10 de 48.