Use este identificador para citar ou linkar para este item: http://repositorio.roca.utfpr.edu.br/jspui/handle/1/12115
Título: QuickDBC: uma separação rápida de clusters baseada em densidade para espaços métricos
Título(s) alternativo(s): QuickDBC: Quick density-based clustering separation for metric spaces
Autor(es): Pilar, João Victor do
Orientador(es): Pola, Ives Renê Venturini
Palavras-chave: Instrumentos de medição - Densidade
Espaços métricos
Mineração de dados (Computação)
Measuring instruments - Density
Metric spaces
Data mining
Data do documento: 6-Dez-2018
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Pato Branco
Referência: PILAR, João Victor do. QuickDBC: uma separação rápida de clusters baseada em densidade para espaços métricos. 2018. 38 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2018.
Resumo: A tarefa de identificação de classes para bancos de dados pode ser obtida por algoritmos de agrupamento. No entanto, é necessário um conhecimento de domínio para determinar alguns parâmetros de entrada para descobrir clusters e a melhoria de sua eficiência em grandes bancos de dados continua sendo um desafio. Aplicações modernas também lidam com dados complexos e os mecanismos de comparação são baseados em predicados de similaridade, o que exige uma nova frente de algoritmos de clustering. Dados complexos são geralmente imersos em espaços métricos onde funções de distância são empregadas para expressar a similaridade. O clustering se torna uma tarefa difícil devido à necessidade de realizar cálculos de distância. Algoritmos baseados em densidade são uma das abordagens para encontrar clusters em espaços métricos e têm a vantagem de encontrar clusters sem a necessidade de especificar o número de clusters a serem encontrados. Neste trabalho, propomos uma nova técnica para separar clusters usando pivôs selecionados na borda do espaço de dados. Vários pivôs particionam o espaço de dados em clusters candidatos com base no nível de densidade desejado, depois todos os candidatos são fundidos gerando uma boa separação de clusters. Nossa técnica também pode ser usada antes de qualquer técnica de agrupamento existente para realizar uma pré-filtragem.
Abstract: The class identification task for spatial databases can be achieved by clustering algorithms. However, it requires a domain knowledge to determine some input parameters to discover clusters and the improvement of its efficiency on large databases remains a challenge. Modern applications also deal with complex data and the comparison mechanisms are based on similarity predicates, which demands a new front of clustering algorithms. Complex data are usually immersed in metric spaces where distance functions are employed to express the similarity. Clustering becomes a difficult task due to the need of performing distance calculations. Density-based are one of the most interesting approaches to find clusters in metric spaces and have the advantage of finding clusters without the need of specifying the number of clusters to find. Although some suggested using indexes to speed up neighbor queries, they still process the entire space of elements calculating distances before finding clusters. In this paper we propose a new technique to separate clusters by using pivots selected at the border of the data space. Multiple pivots partition the data space into candidate clusters based on the desired density level, later all candidates are fused generating a good separation of clusters. Our technique can also be used prior to any existing clustering technique for a performance speed up. Therefore, we performed experiments by using one density clustering algorithm from literature and the results showed that our technique reduced the cost of the clustering process.
URI: http://repositorio.roca.utfpr.edu.br/jspui/handle/1/12115
Aparece nas coleções:PB - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
PB_COENC_2018_2_08.pdf55,71 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.