Use este identificador para citar ou linkar para este item: http://repositorio.roca.utfpr.edu.br/jspui/handle/1/15840
Título: Estudo sobre técnicas de visualização quanto ao uso de rótulos em repositórios de software
Autor(es): Sampedro, Cláudia Lázara Poiet
Orientador(es): Alencar, Aretha Barbosa
Palavras-chave: Visualização da informação
Mineração de dados (Computação)
Software - Desenvolvimento
Information visualization
Data mining
Computer software - Development
Data do documento: 29-Nov-2019
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Campo Mourao
Referência: SAMPEDRO, Cláudia Lázara Poiet. Estudo sobre técnicas de visualização quanto ao uso de rótulos em repositórios de software. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2019.
Resumo: Contexto: Técnicas de visualização são úteis para análise de grandes quantidades de dados, pois estas ampliam a capacidade cognitiva humana no processo de exploração de dados, através da utilização de modelos grá cos e representações visuais. Outra área bastante explorada é a mineração de repositórios, a qual pode transformar dados coletados de repositórios de software em informações úteis para tomada de decisões dentro do gerenciamento de projetos de software. Correlacionando estas duas áreas é possível buscar por padrões não-identi cados em projetos de software. Objetivo: O objetivo deste é aplicar técnicas de visualização para analisar o uso de rótulos (labels) em tarefas presentes em projetos hospedados em plataformas sociais de desenvolvimento. Método: O método empregado foi organizado em cinco etapas: conhecimento do domínio; coleta e pré-processamento de dados; extração e visualização de padrões, responsável pela geração da visualização com os dados pré-processados e análise visual desta; pós-processamento, que pode reiniciar o ciclo já empregado em busca de novos padrões pelo uso de outras técnicas e/ou ajuste de parâmetros; e, por m, utilização do conhecimento. Resultados: Analisado o domínio de projetos de software livre, plataformas sociais de desenvolvimento de software e mecanismos de colaboração centrados em rótulos, foram escolhidos rótulos e sua utilização em tarefas no contexto da plataforma GitHub para o repositório NextCloud. Quanto à coleta e pré-processamento, foi utilizada a API REST da plataforma GitHub e scripts, desenvolvidos em Python e JavaScript. Buscando caracterizar e analisar o uso de rótulos, foram utilizadas visualizações baseadas nas técnicas box plot, streamgraph, desenho de grafo e diagrama de Sankey. Utilizando o conhecimento obtido nas etapas anteriores, conclui-se que o projeto analisado utiliza do recurso de rótulos e este tende a aumentar o número de comentários nas tarefas, melhorando a comunicação entre desenvolvedores. Quanto ao tempo de fechamento das tarefas, estes se mostraram menores para tarefas sem rótulos, o que pode indicar que estas sejam bastante simples e por isso foram concluídas mais rapidamente. Observando o grafo de coocorrência de rótulos, ca evidente que, além de vários rótulos por tarefa, existe uma grande quantidade de associações de rótulos utilizados por tarefa. Também foi possível perceber que a comunidade do projeto tende a usar mais de um rótulo por tarefa. Considerando o diagrama de Sankey, foi possível observar a relação entre os rótulos, quantidade de comentários, tempo de conclusão das tarefas e tipo de conteúdo tratado nos comentários, observando, por exemplo, que tarefas com poucos comentários são concluídas mais rapidamente. Conclusões: O uso de técnicas de visualização facilitam a identi cação de padrões e indícios referentes às questões estabelecidas nesta trabalho, quanto ao uso de rótulos em repositórios de software hospedados na plataforma GitHub, em especial, qual a contribuição dos rótulos na comunicação dos desenvolvedores, e qual o efeito global do uso destes no tempo de conclusão das tarefas, na comunicação, e na forma com que esta é concluída.
Abstract: Context: Visualizations techniques are used to analyzes large amounts of data, because they enhance human cognitive ability in the process of data exploration through the use of graphical models and visual representations. Repository mining is another widely explored area, which can transform data collected from software repositories into useful information for decisiont. By correlating these two areas it is possible to look for unidenti ed patterns in software projects. Objective: This study pourpose is use visualization techniques to analyze the use of labels in issues present in projects hosted on social development platforms. Method: The method employed was organized in ve steps: domain knowledge; data collection and preprocessing; extraction and visualization of patterns, responsible for generating the visualization with the preprocessed data, and visual analysis of it; postprocessing, which may restart the cycle already employed, searching for new patterns by using others techniques and / or parameter setting; and, nally, use of knowledge. Results:Analyzing the domain of open source projects, social software development platforms and label-centric collaboration mechanisms, labels were chosen and their use in issues in the context of the GitHub platform for the NextCloud repository. As for collection and preprocessing, we used the GitHub platform REST API and scripts, developed in Python and JavaScript. In order to characterize and analyze the use of labels, we used visualizations based on box plot, streamgraph, graph drawing and Sankey diagram techniques. Using the knowledge obtained in the previous steps, it is concluded that the analyzed project uses the labels feature and this tends to increase the number of comments on issues, improving communication between developers. As for the issues lifetime, these were shorter for issues without labels, which may indicate that they are quite simple and therefore completed quickly. Looking at the label co-occurrence graph, it is evident that in addition to several labels per issue, there are a large number of label associations used per issue. It was also noted that the project community tends to use more than one label per issue. Considering the Sankey diagram, it was possible to observe the relationship between labels, number of comments, issue lifetime and the content handled in comments, noting, for example, that issues with few comments are nished faster. Conclusions: Visualization techniques facilitates the identi cation of patterns and evidences, regarding the questions established in this study about the use of labels on github repositories, in particular, the contribution of labels on communication process with the developers, and what is the global e ect on the issue’s closing time, in the communication and in the issue conclusion.
URI: http://repositorio.roca.utfpr.edu.br/jspui/handle/1/15840
Aparece nas coleções:CM - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
visualizacaorotulosrepositoriossoftware.pdf3,41 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.