Boa noite! Preciso de uma sugestão sobre o que usar para filtrar os chamados "outliers". Utilizei alguns métodos como o box plot, z-scores, entre outros mas nenhum obteve resultados satisfatórios.
Tenho o seguinte problema, meu software gera uma seqüência de médias aritméticas utilizando sempre dados anteriores no cálculo por isso quando ainda existem poucos dados o resultado acaba não sendo muito confiável por falta de histórico mas a medida que novos dados são acrescentados o resultado acaba ficando mais robusto e sofre menos variação. Segue um exemplo:
r0 = -10
r1 = -10, 1
r2 = -10, 1, 5
r3 = -10, 1, 5, 2
r4 = -10, 1, 5, 2, 10
r_final teria que ser 1, 5, 2, 10 ignorando apenas o -10 e quando cálculo a média tenho os seguintes resultados: 1,6 com o -10 e 4,5 sem o -10 cujo seria o correto. Pensei em usar alguma média diferente ou ignorar uma quantidade inicial X de dados antes de começar o cálculo da média pois se eu uso os métodos conhecidos para "outliers" como o box plot, o número 10 ficaria fora do conjunto.
Alguma ideia?
Agradeço desde já.
Att,
Filipe Nasato.