Outliers

por **filipenasato** » Seg Dez 19, 2011 19:01

Boa noite! Preciso de uma sugestão sobre o que usar para filtrar os chamados "outliers". Utilizei alguns métodos como o box plot, z-scores, entre outros mas nenhum obteve resultados satisfatórios.

Tenho o seguinte problema, meu software gera uma seqüência de médias aritméticas utilizando sempre dados anteriores no cálculo por isso quando ainda existem poucos dados o resultado acaba não sendo muito confiável por falta de histórico mas a medida que novos dados são acrescentados o resultado acaba ficando mais robusto e sofre menos variação. Segue um exemplo:

r0 = -10
r1 = -10, 1
r2 = -10, 1, 5
r3 = -10, 1, 5, 2
r4 = -10, 1, 5, 2, 10

r_final teria que ser 1, 5, 2, 10 ignorando apenas o -10 e quando cálculo a média tenho os seguintes resultados: 1,6 com o -10 e 4,5 sem o -10 cujo seria o correto. Pensei em usar alguma média diferente ou ignorar uma quantidade inicial X de dados antes de começar o cálculo da média pois se eu uso os métodos conhecidos para "outliers" como o box plot, o número 10 ficaria fora do conjunto.

Alguma ideia?

Agradeço desde já.

Att,
Filipe Nasato.

por **Neperiano** » Seg Dez 19, 2011 20:40

Ola

Deixa eu ver se eu entendi

Ele não é confiavel porque apresenta poucos dados?

Tu deveria dar uma condição, tipo assim, SE X>10, exija que ele tenha ao menos 10 resultados

Ou então use o desvio padrão, quanto mais resultados, menor o desvio padrão

Não sei se ajudei

Qualquer duvida

Atenciosamente

por **filipenasato** » Ter Dez 20, 2011 09:14

Exato, no início como ainda tem poucos dados ele retorna uma média que pode distorcer o resultado futuro se o valor do dado for muito grotesco. A condição de ter um mínimo de resultados parece a solução mais correta, se fosse usar desvio padrão acabaria que talvez alguns dados ficassem de fora. Pretendo usar também uma média sem muita memória mas ainda não sei qual.

por **Neperiano** » Ter Dez 20, 2011 13:44

Ola

Conheço média geométrica e harmonica, são interessantes você dar uma pesquisada

Atenciosamente

por **filipenasato** » Ter Dez 20, 2011 14:35

Após alguns testes acabei utilizando a mediana acredito que seja a única forma de tirar os outliers com eficiência. Também estou ignorando os 10 primeiros resultados como foi mencionado anteriormente.

Obrigado!

por **Neperiano** » Ter Dez 20, 2011 14:47

Ola

Boa, ela meio que ignora os valores das pontas, não importa a amplitude com ela

Só cuidado ao utilizar ela, se você comparar com a média pode dar uma grande diferença

Atenciosamente

Outliers

Outliers

Outliers

Re: Outliers

Re: Outliers

Re: Outliers

Re: Outliers

Re: Outliers

Quem está online