Pesquisa

quarta-feira, 12 de fevereiro de 2014

Processo KDD

Conhecer o perfil do cliente traz uma série de benefícios para a instituição, o principal deles é a capacidade de melhorar a qualidade de seus serviços prestados. Conhecendo o público alvo é possível montar uma melhor estratégia de marketing e com isto garantir resultados mais significativos com a venda de produtos ou serviços.O problema é que estes registros muitas vezes representam apenas dados e não conhecimento.Visando transformar estes dados em conhecimento, surge o processo chamado de Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases - KDD).

O processo de KDD contém uma série de passos, a saber: seleção, pré-processamento e limpeza, transformação, mineração de dados (data mining) e interpretação/avaliação. Como se pode ver, o processo compreende, na verdade, todo o ciclo que o dado percorre até virar conhecimento ou informação, como preferir.

Fonte: Adaptação de FAYYAD et al. (1996).

O processo possui duas características relevantes: é interativo e iterativo. Interativo, pois o usuário pode interferir e controlar o curso das atividades. Iterativo, por ser uma sequência limitada de operações onde o resultado de cada uma é dependente dos resultados das antecedentes. A seguir, daremos uma visão geral de cada uma das fases.

  • Seleção dos dados:
A fase de seleção dos dados é a primeira no processo de busca da informação. Nesta fase é escolhido o conjunto de dados, pertencente a uma área, contendo todas as possíveis variáveis e registros que farão parte da análise. Normalmente a escolha dos dados fica a critério de um especialista do domínio. 
O processo de seleção é bastante complexo, uma vez que os dados podem vir de uma série de fontes diferentes (data warehouses, planilhas, sistemas legados) e podem possuir os mais diversos formatos. Este passo possui impacto significante sobre a qualidade do resultado do processo.

  • Pré-processamento e limpeza dos dados:
Esta é uma parte importantíssima no processo, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser realizadas tarefas que eliminem dados redundantes e inconsistentes, recuperar dados incompletos e avaliar possíveis dados divergentes ao conjunto. Mais uma vez o auxílio do especialista do domínio é fundamental. Nesta fase também são utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando com isto melhorar o desempenho do algoritmo de análise.

  • Transformação dos dados:
Após serem selecionados, limpos e pré-processados os dados necessitam ser armazenados e formatados adequadamente para que os algoritmos de aprendizado possam ser aplicados. Em grandes corporações é comum encontrar computadores rodando diferentes sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados (SGDB). Estes dados que estão dispersos devem ser agrupados em um repositório único. 

  • .Mineração de dados (data mining):
Todas as etapas do processo de KDD possuem grau elevado de importância para o sucesso do  mesmo. Entretanto, é a etapa de Mineração de Dados (data mining) que recebe o maior destaque na literatura. É onde é feita a exploração e análise, de forma automática ou semi-automática, de grandes bases de dados com objetivo de descobrir padrões e regras. O objetivo principal do processo de data mining é fornecer as corporações informações que a possibilitem montar melhores estratégias de marketing, vendas e suporte, para alcançar melhores resultados nos negócios.

  • Interpretação e avaliação
Esta é mais uma fase que deve ser feita em conjunto com um ou mais especialistas no assunto. O conhecimento adquirido através da técnica de data mining deve ser interpretado e avaliado para que o objetivo final seja alcançado. Caso o resultado não seja satisfatório, o que não é raro, o processo pode retornar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado. Duas das ações mais comuns caso o resultado não seja satisfatório são: modificar o conjunto de dados inicial ou trocar o algoritmo de data mining ou ao menos alterar suas configurações de entrada.


Nenhum comentário:

Postar um comentário