quinta-feira, junho 02, 2011

Não percam

O gráfico feito pelo Bernardo Caldas, melhorado e já totalmente actualizado.

10 comentários:

Pedro Oliveira disse...

Muito bom, embora o Zoom no meu MacBook funcione ao contrário...

Augusto disse...

Sondagens

Eis para memória futura, uma sondagem das ultimas Presidencias a uma semana das Eleições

Cavaco Silva

Cesop-59%
Intercampus-54,6
Marktest- 64,2
Aximage-54,7
Eurosondagem-56,3

Resultado final
52,95

Dá que pensar.....

Augusto disse...

Nas ultimas Presidenciais, a uma semana do escrutinio, os valores que as sondagens atribuiam a Cavaco Silva , era os seguintes:

Cesop-59%
Aximage-54,7
Eurosondagem-56,3
Marktest-64,2
Intercampus-54,6

Resultado final 52,95

Há aqui muita gente que se enganou, para não dizer outra coisa.

Mas nunca vi uma explicação credivel para semelhante discrepância....

José Santos disse...

Gostaria de perguntar ao Sr. Bernardo Caldas, como é que é calculada a média móvel?

A pergunta seria básica se todas as sondagens estivessem igualmente espaçadas no tempo, onde o conceito de médias móveis fazem sentido. No entanto, neste caso, temos momentos (pré-eleitorais) com charters de sondagens, e outros com poucas sondagens.

Bernardo disse...

Caro José,
São feitas da forma habitual, isto é, fazendo a média do valor e dos X imediatamente anteriores. A próximidade temporal de sondagens consecutivas só afecta a rapidez com que varia a média, isto é, para serem visíveis alterações num curto espaço de tempo tem de haver muitas sondagens nesse espaço de tempo. Como diz, se olhar para a média nos últimos dias (em que as sondagens são em elevado número), há variações em poucos dias, como por exemplo, o afastamento do PSD relativamente ao PS.

José Santos disse...

Caro Sr. Bernardo Caldas:
Creio que esse procedimento não será correcto do ponto de vista matemático.

E como calcula a curva no espaço entre sondagens? (exemplo entre 18/5/2011 e 22/5/2011: não percebo como obtém mudanças bruscas nas curvas do psd e cdu).

Bernardo disse...

Caro José,
Talvez pudéssemos usar uma média móvel ponderada, em que a ponderação dependeria da distância temporal. Assim já se compensava o facto que refere. O que lhe parece?Tem outra sugestão?

Quanto à mudança brusca, deve-se à interpolação polinomial. Os valores das médias são calculadas para os mesmos dias em que saem sondagens, e entre cada dois pontos encontra-se o polinómio que as aproxima (a chamada spline). É um método que não é "brilhante" para garantir um amaciamento da curva, mas é já bastante bom. Se quiser que ponha uma opção para o desactivar e ver apenas as médias unidas por segmentos de recta, não me custa nada.

E obrigado pela correcção (não sou especialista em estatística, de modo algum!)

José Santos disse...

Calma aí, segundo percebi:
1º faz as médias móveis
2º aplica o spline
Então não era só como dizia: médias móveis.

Questões:
1. Usa o spline cúbico?
2. Quantos pontos usa no spline?
3. Quantos pontos usa antes e depois do pedaço de curva a definir ?
4. O spline passa rigorosamente nos pontos obtidos pela média móvel?

Na minha modesta opinião, o que se passa é que o spline só pode ser aplicado se os pontos (da média móvel) fossem verdadeiros. Acontece que verificamos que há um grande erro nestes valores (da média móvel), devido à sua enorme dispersão.
Tenho óptima impressão do spline, mas apenas para interpolação (entre valores verdadeiros).

Nós estamos perante um problema de ajuste de curvas e não de interpolação! Logo o uso do spline não é cientificamente correcto, na minha modesta opinião.

Na verdade, as médias móveis são um desses métodos de ajuste de curvas, embora com aplicação limitada, que (na minha opinião) não são adequados a este problema, pois: i) o intervalo de tempo não é constante, ii) a função apresenta demasiado ruído, e iii) nós estamos aqui interessados em apanhar variações rápidas (normalmente a média móvel aplica-se com muitos mais pontos, e aí verifica-se um: atraso e uma perda dos valores extremos. A média móvel exponencial permite atenuar o atraso).

É difícil poder manifestar a minha opinião. Tenho umas ideias sobre as possíveis causas do problema.
Mas só fazendo testes é possível resolver o problema.

O uso dos mínimos quadrados por trechos deverá ser mais adequado ou então o LOESS robusto não linear, ou outros métodos de ajuste de curvas.

(Também não percebo porque fazendo nº de períodos igual a 1, as curva não passa em todos os pontos.)

Unknown disse...

Caro José Santos, os seus comentários são muito úteis. Por outro lado, já se falou aqui várias vezes que se vai implementar LOESS, só que não houve tempo para tal. Quando houver, certamente que se irão considerar as suas sugestões, e estou certo até que seria útil entrarmos em contacto consigo. Entretanto, o que se fez, por sugestão minha, foi a solução mais simples de implementar, e que é usada há anos em sites como o Real Clear Politics, por exemplo. Obrigado!

José Santos disse...

Conforme já disse antes o projecto está muito bom, e espero que se mantenha on-line por muitas décadas. Grande base de dados! Bem hajam.

Só estamos a discutir pormenores no global do projecto. E desde já digo, apesar de não ser matemático, reconheço que este não é um problema nada fácil de resolver. Ia deixar muitos matemáticos/estatísticos a pensar. Penso também que o LOESS sozinho será insuficiente.