Repositórios de Código Aberto das IFs

Explore os projetos de software livre desenvolvidos e mantidos nas Instituições Federais de Ensino.

Estatísticas Globais

Total de Repositórios

Carregando...

Linguagem Mais Usada

Carregando...

Licença Mais Usada

Carregando...

Top 10 Linguagens

Linguagem Repositórios

Top 10 Repositórios

Repositório Instituição Estrelas

Top 10 Licenças

Licença Repositórios

Principais Clusters Identificados (popularidade e atividade)

  • Cluster 0: Repositórios mais antigos e com poucas estrelas, de usuários pessoais.
  • Cluster 1: Repositórios recentes e com poucas estrelas, de usuários pessoais.
  • Cluster 2: Repositórios populares de Organizações e Pessoas.
  • Cluster 3: Repositórios Altamente Populares (Outliers).

Visualização de Clusters (PCA)

Visualização de clusters usando PCA

Visualização de Clusters (t-SNE)

Visualização de clusters usando t-SNE
ID Descrição
0

Repositórios com Poucas Estrelas e Atualizações Mais Antigas

  • Características: Média de estrelas baixa (0.79), mediana de 0 estrelas. Média do ano de atualização mais antiga (2019.0). Predominantemente de usuários pessoais (95.65%).
  • Interpretação: Este cluster parece agrupar a maioria dos repositórios que não são muito populares e tendem a ter sido atualizados há mais tempo. São majoritariamente projetos de usuários individuais.
1

Repositórios com Poucas Estrelas e Atualizações Recentes

  • Características: Média de estrelas baixa (1.44), mediana de 1 estrela. Média do ano de atualização mais recente (2023.6). Predominantemente de usuários pessoais (95.04%).
  • Interpretação: Similar ao Cluster 0 em popularidade, mas contém repositórios mais recentemente atualizados. Pode incluir projetos pessoais em desenvolvimento ativo ou trabalhos de disciplina recentes.
2

Repositórios Populares de Organizações e Pessoas

  • Características: Média de estrelas significativamente maior (39.41), mediana de 34 estrelas. Média do ano de atualização muito recente (2024.59). Proporção notável de repositórios de organização (42.25%).
  • Interpretação: Este cluster parece capturar repositórios mais populares e ativamente mantidos, com uma mistura maior de projetos de organizações e usuários pessoais de alto engajamento.
3

Repositórios Altamente Populares (Outliers)

  • Características: Média de estrelas extremamente alta (403.5), mediana de 403.5 estrelas. Apenas 2 repositórios. Média do ano de atualização mais recente (2025.0). Apenas de usuários pessoais (100%).
  • Interpretação: Este cluster representa os outliers, repositórios excepcionalmente populares que distoam do restante do dataset. São casos raros de projetos pessoais que alcançaram grande visibilidade.

Principais Descobertas da Análise de Dados

  • O conjunto de dados foi pré-processado para clusterização, tratando valores ausentes, escalando características numéricas ('Estrelas', 'Ano Atualizacao') e codificando características categóricas ('Linguagem Principal', 'Organizacao') usando one-hot encoding. Os dados processados foram representados como um DataFrame esparso.
  • A clusterização K-Means com 4 clusters foi aplicada aos dados pré-processados. Os rótulos dos clusters foram adicionados ao DataFrame original.
  • A qualidade dos clusters foi avaliada usando o Silhouette Score (0.3035) e o Davies-Bouldin Index (0.8797). Essas métricas indicaram uma melhor separação e definição dos clusters em comparação com a configuração de 5 clusters.
  • O PCA foi utilizado para reduzir a dimensionalidade dos dados para 2 componentes, e um gráfico de dispersão visualizou os clusters nesse espaço reduzido, mostrando alguma separação visual entre os grupos, embora com alguma sobreposição entre os clusters majoritários (0 e 1).
  • A visualização utilizando t-SNE mostrou como os clusters se relacionam em um espaço de menor dimensão. Esta visualização destacou:
    • A clara separação dos outliers do Cluster 3.
    • Uma distinção visual mais nítida entre os clusters 0 e 1 em algumas áreas, comparado ao PCA.
    • A posição do Cluster 2, que parece ter características que o colocam entre os clusters majoritários e os outliers mais extremos.

Insights ou Próximos Passos

  • A análise de cluster com 4 grupos revelou distinções significativas baseadas na popularidade, idade/atividade e propriedade. A configuração de 4 clusters parece capturar melhor a estrutura dos dados de acordo com as métricas avaliadas.
  • Aprofundar a análise das linguagens principais e das organizações dentro de cada um dos 4 clusters identificados pode fornecer insights mais específicos.
  • Embora as métricas sugiram 4 clusters como uma boa opção, a interpretação visual e a análise das características dos clusters são cruciais para validar se esta divisão faz sentido no contexto dos dados.
  • Análises mais detalhadas sobre os repositórios no Cluster 2 (populares de organizações e pessoas) e no Cluster 3 (outliers) podem revelar padrões ou exemplos de destaque.

Cluster 3: Repositórios Institucionais e Pessoais mais relevantes e ativos

Uma característica distintiva deste cluster é a presença notável de repositórios associados a Organizações (aproximadamente 39.73%), em contraste com a predominância de usuários pessoais nos outros clusters. Isso sugere que este cluster inclui muitos projetos que são mantidos por grupos, laboratórios, departamentos ou iniciativas institucionais dentro das universidades e institutos federais.

Repositório Descrição Estrelas Linguagem Organização Link

Filtros Rápidos

Pesquisa Rápida

Estatísticas de Resultados Filtrados

Total Filtrado

...

Linguagem Mais Usada

...

Licença Mais Usada

...

Todos os Repositórios

0 repositórios exibidos
Instituição Nome do Repositório Linguagem Estrelas Licença Última Atualização Descrição Cluster Link
Carregando repositórios...
Página 1 de 1