Repositório de aulas da turma de DS Degree no Módulo de Machine Learning
Notebook de aula já vem comentado para reduzir o tempo de anotação.
Ao longo da aula teremos um intervalo que pode variar de 5 à 10 minutos.
Ao final de cada aula teremos exercícios que devem ser realizados em grupo. A presença em aula será dada nesse momento.
A correção desses exercícios será feita com base nas respostas dos alunos.
Os alunos são livres para tirar dúvidas ao longo da aula.
A gravação das aulas será disponibilizada sem necessidade de requisição
1 - Avaliação por rubrica:
- Softskills
- Hardskills.
1.1 Exemplo de avaliação de Hardskill - Random Forest:
- [00] Não houve participação e/ou entregas suficientes do aluno para avaliar esse critério
- [01] O aluno ainda não tem familiaridade com o conceito
- [02] O aluno tem familiaridade com o conceito, mas ainda tem dificuldade de aplicá-lo em problemas específicos ou de escopo aberto
- [03] O aluno é capaz de aplicar os conceitos em problemas de escopo fechado (que trabalham especificamente esse conceito), mas ainda tem dificuldade em aplicá-lo em problemas de escopo aberto ou de forma autônoma
- [04] O aluno é capaz de aplicar os conceitos em problemas de escopo fechado e em problemas de escopo aberto de forma autônoma
2 - Projeto em grupo a ser apresentado na última aula.
1 - Espaço anônimo para vocês deixarem suas sugestões e\ou críticas a qualquer momento.
2 - Avaliação geral feita pela LC. O link é disponibilizado nas últimas aulas.
- Autoavaliação: https://forms.gle/vmdBSLg6F9RKgnpe9
- Avaliação dos Professores: https://forms.gle/ppACPKkx9LXGPf466
Data | Aula | Tema |
---|---|---|
06/05/2022 | 1 | CV |
09/05/2022 | 2 | Utilização do scikit-learn + imbalanced |
11/05/2022 | 3 | KNN |
13/05/2022 | 4 | Árvores de regressão e classificação |
16/05/2022 | 5 | Otimização de hiperparâmetros básica (grid search, random search) |
18/05/2022 | 6 | Bagging e random forest |
20/05/2022 | 7 | Criação de pipelines simples |
23/05/2022 | 8 | Avaliação por rúbrica |
25/05/2022 | 9 | Projeto - Apresentação dos alunos |
Data | Aula | Tema |
---|---|---|
11/07/2022 | 1 | Seleção de Features - parte I |
13/07/2022 | 2 | Seleção de Features - parte II |
15/07/2022 | 3 | PCA |
18/07/2022 | 4 | Interpretabilidade de modelos - parte I |
20/07/2022 | 5 | Interpretabilidade de modelos - parte II |
22/07/2022 | 6 | Otimização de hiperparâmetros avançada - parte I |
25/07/2022 | 7 | Otimização de hiperparâmetros avançada - parte II |
27/07/2022 | 8 | Case |
29/07/2022 | 9 | Avaliação por rúbrica e apresentação do projeto final |
- Objetivo: Fazer um processo inteiro de modelagem iniciando seguindo o fluxo de EDA, tratamento dos dados, comparação de modelos e escolha do melhor modelo..
- O grupo poderá escolher uma base entre as fornecidas pelos professores ou escolherem uma outra base de dados que possa ser compartilhada.
- Teremos x grupos com 4 pessoas.
- Grupos devem preencher o nome do participante e a base de dados escolhida no link
- Sugestão de base de dados
- A apresentação poderá ser construída em um jupyter notebook ou em slides
- Storytelling
- Cada grupo terá no máximo 20 minutos para apresentar o projeto.
Pontos esperados:
- Apresente as características do conjunto de dados fornecido, destacando sua visão geral acerca do conjunto de dados e tecendo críticas e comentários.;
- Faça uma análise detalhada das variáveis numéricas e categóricas da base de dados, discutindo sua distribuição e outras características relevantes;
- Limpeza de dados: Considere a avaliação da existência de valores ausentes e de possíveis outliers, discutindo como estes podem ser tratados ou eliminados;
- Feature engineering: Quais variáveis você poderia criar para enriquecer a análise?
- Enriquecimento da base: Inclua qualquer outra informação/análise que achar importante.
- Que outras bases externas ou internas voce buscaria para enriquecer as análises?
- Quais os pré-processamentos aplicados e o porquê.
- Quais modelos escolhidos e o porquê da escolha desses modelos.
- Quais outras melhorias poderiam ser feitas tanto nos dados quanto em relação à modelagem?
- Quais métricas foram escolhidas e o porquê.
- Objetivo: Fazer um processo inteiro de modelagem iniciando seguindo o fluxo de EDA, tratamento dos dados, comparação de modelos e escolha do melhor modelo, seleção de features, redução da dimensionalidade, interpretação do modelo e otimização de hiperparâmetros.
- A base a ser utilizada é a de risco de crédito compartilhada no fim do módulo passado.
- Teremos 5 grupos com 4 pessoas.
- Grupos devem preencher o nome do participante link
- A apresentação poderá ser construída em um jupyter notebook ou em slides
- Storytelling
- Só será preciso apresentar a parte do EDA se em algum momento ela foi utilizada na tomada de decisão.
- Cada grupo terá no máximo 25 minutos para apresentar o projeto.
- No projeto será obrogatoria a utilização de pipeline