Use este identificador para citar ou linkar para este item: http://repositorio.roca.utfpr.edu.br/jspui/handle/1/7381
Título: Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo
Título(s) alternativo(s): An analysis of the application of missing values imputation algorithms in multi-label databases
Autor(es): Scrobote, Adriana
Orientador(es): Foronda, Augusto
Palavras-chave: Banco de dados
Algorítmos computacionais
Computação
Data bases
Computer algorithms
Computer science
Data do documento: 25-Mai-2017
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Ponta Grossa
Referência: SCROBOTE, Adriana. Uma análise da aplicação de algoritmos de imputação de valores faltantes em bases de dados multirrótulo. 2017. 133 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.
Resumo: Há dois tipos de bases de dados que podem ser utilizadas por algoritmos de classificação: monorrótulo e multirrótulo. Em bases de dados monorrótulo cada exemplo está associado a um único rótulo, enquanto que em bases de dados multirrótulo cada exemplo pode estar associado a mais de um rótulo simultaneamente. A ausência de valores em bases de dados multirrótulo é um problema comum e para tentar resolver isso existem os algoritmos de imputação. Algoritmos de imputação de valores faltantes em bases de dados multirrótulo fazem parte da etapa de pré-processamento dos dados para que algoritmos de classificação multirrótulo possam ser aplicados. O tratamento de dados incompletos é feito através da técnica de imputação, onde valores ausentes são substituídos por valores aproximados a partir de outros existentes na base de dados. Existem vários algoritmos que implementam formas de estimar valores. Neste contexto, o presente trabalho faz uma análise da aplicação de algoritmos de imputação de valores omissos em bases de dados multirrótulo para verificar a eficácia de cada um diante de diferentes bases de dados com valores incompletos. Foram testados os algoritmos Imputação pela Moda, Média, Mediana e KNN Iterativo, sendo este último o que obteve os melhores resultados.
Abstract: There are two types of databases that can be used by classification algorithms, which are multi and mono-label databases. In mono-label databases each example is associated with a single label, while in multi-label databases each example may be associated with more than one label simultaneously. The absence of values is a common problem in databases and to solve this problem there are imputation algorithms. Missing values imputation algorithms in multi-label databases are part of the preprocessing data stage so that multi-label classification algorithms can be applied. The treatment of incomplete data is made by imputation, where missing values are substituted by approximate values from other existing values in database. There are several algorithms that implement various ways to estimate values. In this context, the present study is an analysis of the aplication of missing values imputation algorithms in multi-label databases to check the efficiency of each on different databases with incomplete values. The algorithms Imputation by Mode, Mean, Median and Iterative KNN were tested, where the last one got the best results.
URI: http://repositorio.roca.utfpr.edu.br/jspui/handle/1/7381
Aparece nas coleções:PG - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
PG_COCIC_2017_1_01.pdf2,22 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.