SaúdeOUT 2016

‘The Primary Outcome Fails’: quando nem tudo se resume ao valor de p

Agora discutiremos porque muito menos se deve tomar decisões do tipo sim/não ou significativo/não significativo apenas pelo corte de 0,05 do valor p.

0 visualizações
0 avaliações
9 minutos
Ler depois
Por Ronaldo Gismondi
Capa do artigo

No dia 1º de setembro deste ano, a revista New England Journal of Medicine (NEJM) publicou o texto “The Primary Outcome Fails – what next?”. O objetivo dos autores foi discutir a análise crítica dos resultados de artigos científicos, com ênfase nos grandes ensaios clínicos com resultado “negativo”.

500x120-assinatura

A produção científica mundial tem crescido em progressão geométrica. Estima-se que na área biomédica haja mais de 30 mil publicações por ano. O progresso tecnológico e as facilidades de acesso eletrônico pela internet são fatores determinantes deste cenário. É praticamente impossível que um médico consiga acompanhar tudo que se publica regularmente, mesmo que foque em uma área específica do seu interesse. Deste modo, é importante que você leitor desenvolva habilidades para selecionar os artigos de melhor qualidade e mais relevantes para sua prática.

Quem nunca leu o abstract que saiu ontem e chegou na residência falando: “saiu ontem na NEJM que esse remédio reduz o risco de morte… Ah, e com um p significativo menor que 0,05”? Mas na faculdade, em geral nas aulas de epidemiologia e iniciação científica, o aluno aprende (ou deveria aprender!) a não tomar decisões ou conclusões baseado apenas no resumo (abstract) dos artigos. Agora discutiremos porque muito menos se deve tomar decisões do tipo sim/não ou significativo/não significativo apenas pelo corte de 0,05 do valor p.

Quando se planeja um ensaio clínico, o objetivo é responder a uma pergunta, a chamada hipótese do estudo. Esta é derivada de estudos prévios na literatura. Como exemplo, no estudo TOPCAT, a pergunta era: a espironolactona reduz o desfecho primário em pacientes com ICFEN? A fim de responder a esta pergunta, desenha-se o estudo para avaliar se há diferença entre os grupos (um de tratamento e outro controle).

Veja também: ‘5 técnicas de estudo que todo aluno de medicina deve conhecer’

Em pesquisa, vale o “todo réu é inocente até que se prove o contrário”. Isto é, a hipótese nula é que os grupos são iguais, não há diferença. E diz-se que a hipótese alternativa é que há diferença. Os testes estatísticos mostram nada mais que a probabilidade de estarmos acertando (ou não) em rejeitar a hipótese nula e aceitar a alternativa, isto é, aceitarmos que há uma diferença entre os grupos.

O valor p é a probabilidade de rejeitarmos a hipótese nula quando ela for verdadeira. Traduzindo: valor p é a chance de vermos uma diferença que não existe! Por isso, para não tomarmos conclusões erradas, esta chance tem que ser pequena. Quanto menor a chance, menor o risco de erro. O tradicional é aceitar uma chance e erro de até 0,05 ou 5%. Mas esse não deve ser um ponto fixo – quanto menor p, menos chance de aceitarmos uma diferença falsa.

Outro perigo é achar que um valor p menor indica um resultado mais significativo. Nada disso! A magnitude do efeito, isto é, o benefício ou risco do tratamento testado é estimado pelo risco relativo (RR), risco absoluto ou pela razão de chances (odds ratio – OR). Como exemplo, no estudo JUPITER, que avaliou a rosuvastatina na prevenção primária de eventos cardiovasculares, o grupo estatina teve um odds ratio de 0,46 para IAM em comparação com controle e o intervalo de confiança (IC) foi de 0,30 a 0,70; o valor p foi 0,0002. Isso significa que a rosuvastatina reduziu em 54% o risco de IAM em relação ao controle nesta amostra e temos 95% de certeza que esta redução oscila entre 30% e 70% na população. Além disso, a chance dessa diferença ser falsa, isto é, da rosuvastatina não funcionar, é de apenas 0,02%.

Mas agora imaginem o seguinte cenário: o estudo CIBIS comparou bisoprolol e placebo na ICFER e mostrou que o OR para morte foi 0,80 com IC 95% 0,56 a 1,15 e p=0,22. Há uma chance de 22% desta diferença não existir! Será o bisoprolol inútil? O artigo da NEJM justamente discute este cenário. Quando você ler um artigo “negativo”, não pare no resumo. Abra o texto completo e siga o seguinte passo a passo:

1. Há um “trend”, isto é, o RR ou o OR foi bom e o teste estatístico foi limítrofe? Como exemplo, no estudo TORCH, avaliando salmeterol + fluticasona vs placebo em pacientes com DPOC houve p=0,052. Será este um estudo negativo? Provavelmente não… Um 0,052 não é muito diferente de 0,050!

2. No estudo que você está avaliando, houve cálculo do tamanho amostral? O erro tipo II (ou beta) é justamente a chance de aceitarmos a hipótese nula, isto é, que não há diferenças, quando na verdade existia diferença. É um falso negativo do ensaio clínico. Há estatisticamente como mostrarmos o poder do estudo, isto é, a capacidade de com aquele tamanho amostral encontrarmos a diferença que estamos almejando entre os grupos. Aceita-se na literatura ensaios com poder > 80%.

3. O desfecho primário foi adequadamente proposto? É preciso ter equilíbrio. Um estudo que avalie apenas morte como desfecho primário com certeza é muito importante, mas se a doença matar pouco serão necessárias milhões de pessoas para conseguir mostrar a diferença entre os grupos e o estudo será inexequível. Já um estudo que junte muitos desfechos pode tomar conclusões precipitadas. É comum estudos em cardiologia juntarem morte, AVC e IAM – todos complicações da aterosclerose. Mas juntar morte, AVC, IAM e dor anginosa pode criar um viés. Será a redução da dor anginosa tão importante quanto os outros eventos?

4. A população escolhida foi adequada? Estudar uma droga em uma população de baixo risco pode não mostrar benefício se o desfecho analisado for muito raro. Exemplo: estudar se um anti-hipertensivo reduz o risco de IAM em jovens com menos de 40 anos pode ter resultado negativo simplesmente porque é muito raro infartar com essa idade! Mas atenção: o outro lado da moeda também é verdade: mostrar que um anti-hipertensivo reduz o risco de AVC em pessoas de maior risco não quer dizer que o mesmo ocorrerá na população em geral, comprometendo a capacidade de generalizar aquele resultado para o mundo real.

5. A dose estudada foi a mais adequada? O ideal é a dose se basear em estudos de fase 2, com um equilíbrio entre eficácia vs risco de eventos adversos.

6. Os sítios do estudo seguiram o protocolo? Um sítio que não reporte eventos adversos ou não monitore a adesão ao tratamento pode atrapalhar todo o resultado do grupo. Lembrar que há países que permitem que o pesquisador seja remunerado pelo número de pacientes que entram no estudo e isso pode ser um estímulo perigoso. Por isso, todo estudo internacional sério conta com uma equipe de monitoria, que avalia se os centros estão seguindo corretamente a norma. É como uma fiscalização.

7. Um cuidado especial: o estudo foi desenhado para mostrar que o tratamento é superior ou igual (equivalente)? O tratamento estatístico é diferente. Se o estudo foi planejado para mostrar superioridade e o resultado não é significativo, isto não pode dar certeza que os tratamentos são equivalentes! Apenas mostrou “que não é superior”.

8. Cuidado com a análise de subgrupos e os desfechos secundários: o que vale no ensaio clínico é o desfecho principal. A análise “post hoc” é sujeita a viés. Contudo, não quer dizer que tenhamos que “jogar fora” um resultado post hoc. Ele servirá como um “pode haver um benefício” e indica um caminho para outro estudo. No estudo SYNTAX, a angioplastia com stent farmacológico foi comparada com a cirurgia de revascularização em pacientes com doença trivascular e/ou doença de tronco da coronária esquerda. O resultado final do estudo mostrou resultados melhores com a cirurgia. Contudo, no subgrupo de pacientes com lesão apenas de tronco, houve equivalência (ou até uma discreta superioridade!) da angioplastia. Isso não autoriza passarmos a tratar toda lesão de tronco com angioplastia! O certo é desenhar um estudo planejado especificamente para essa hipótese. E isso está sendo feito (EXCEL trial).

9. Atenção ao tipo de análise. A forma adequada para se analisar os resultados de um ensaio clínico é o protocolo “intention-to-treat”. Isto é, os pacientes são analisados nos grupos para os quais eles foram alocados. Contudo, por questões éticas, os pacientes podem acabar “migrando de grupo” ao longo do estudo. Por exemplo, no estudo BARI 2D, comparou-se revascularização do miocárdio (cirurgia e/ou angioplastia) e tratamento clínico em pacientes com DM2. O resultado final mostrou que a incidência de morte, AVC e IAM foi semelhante entre os grupos. Contudo, 42% (!!!) dos pacientes inicialmente alocados no grupo de tratamento clínico acabaram realizando revascularização. Será então correto comparar os dois grupos igualmente? Uma solução seria realizar a análise pela técnica “as treated” ou “per protocol”, deixando nos grupos apenas os pacientes alocados de fato para o tratamento inicialmente proposto – no exemplo do BARI 2D, comparando quem ficou só com tratamento clínico vs quem fez revascularização. Infelizmente, esse tipo de análise aumenta o risco de viés – ficou em tratamento clínico quem tinha maior adesão? Ou os mais pobres, sem acesso a recursos complexos? Tudo isso interfere nas conclusões finais.

10. O ditado “uma andorinha não faz verão” é uma boa lição na medicina baseada em evidências. Um estudo negativo não deve ser o suficiente para você abandonar de vez uma hipótese. Ajustes no desenho, seleção de pacientes, recrutamento, dose, entre outros, pode ser o motivo do resultado frustrante. Da mesma forma não podemos tomar conclusões definitivas com base em apenas um ensaio clínico. Recentemente, dois exemplos na terapia intensiva confirmaram essa hipótese. Os primeiros ensaios de controle glicêmico intensivo e de corticoterapia na sepse mostram resultados promissores. Logo, a maioria das unidades em todo o mundo já estava aplicando isso na prática. Contudo, ensaios maiores (NICE-SUGAR e CORTICUS), com populações mais próximas ao mundo real e multicêntricos, não conseguiram confirmar os resultados.

ronaldo

250x250-1

As melhores condutas médicas você encontra no Whitebook. Baixe o aplicativo #1 dos médicos brasileiros. Clique aqui!

Referências:

  • https://www.nejm.org/doi/full/10.1056/NEJMra1510064?query=TOC

No dia 1º de setembro deste ano, a revista New England Journal of Medicine (NEJM) publicou o texto “The Primary Outcome Fails – what next?”. O objetivo dos autores foi discutir a análise crítica dos resultados de artigos científicos, com ênfase nos grandes ensaios clínicos com resultado “negativo”.

500x120-assinatura

A produção científica mundial tem crescido em progressão geométrica. Estima-se que na área biomédica haja mais de 30 mil publicações por ano. O progresso tecnológico e as facilidades de acesso eletrônico pela internet são fatores determinantes deste cenário. É praticamente impossível que um médico consiga acompanhar tudo que se publica regularmente, mesmo que foque em uma área específica do seu interesse. Deste modo, é importante que você leitor desenvolva habilidades para selecionar os artigos de melhor qualidade e mais relevantes para sua prática.

Quem nunca leu o abstract que saiu ontem e chegou na residência falando: “saiu ontem na NEJM que esse remédio reduz o risco de morte… Ah, e com um p significativo menor que 0,05”? Mas na faculdade, em geral nas aulas de epidemiologia e iniciação científica, o aluno aprende (ou deveria aprender!) a não tomar decisões ou conclusões baseado apenas no resumo (abstract) dos artigos. Agora discutiremos porque muito menos se deve tomar decisões do tipo sim/não ou significativo/não significativo apenas pelo corte de 0,05 do valor p.

Quando se planeja um ensaio clínico, o objetivo é responder a uma pergunta, a chamada hipótese do estudo. Esta é derivada de estudos prévios na literatura. Como exemplo, no estudo TOPCAT, a pergunta era: a espironolactona reduz o desfecho primário em pacientes com ICFEN? A fim de responder a esta pergunta, desenha-se o estudo para avaliar se há diferença entre os grupos (um de tratamento e outro controle).

Veja também: ‘5 técnicas de estudo que todo aluno de medicina deve conhecer’

Em pesquisa, vale o “todo réu é inocente até que se prove o contrário”. Isto é, a hipótese nula é que os grupos são iguais, não há diferença. E diz-se que a hipótese alternativa é que há diferença. Os testes estatísticos mostram nada mais que a probabilidade de estarmos acertando (ou não) em rejeitar a hipótese nula e aceitar a alternativa, isto é, aceitarmos que há uma diferença entre os grupos.

O valor p é a probabilidade de rejeitarmos a hipótese nula quando ela for verdadeira. Traduzindo: valor p é a chance de vermos uma diferença que não existe! Por isso, para não tomarmos conclusões erradas, esta chance tem que ser pequena. Quanto menor a chance, menor o risco de erro. O tradicional é aceitar uma chance e erro de até 0,05 ou 5%. Mas esse não deve ser um ponto fixo – quanto menor p, menos chance de aceitarmos uma diferença falsa.

Outro perigo é achar que um valor p menor indica um resultado mais significativo. Nada disso! A magnitude do efeito, isto é, o benefício ou risco do tratamento testado é estimado pelo risco relativo (RR), risco absoluto ou pela razão de chances (odds ratio – OR). Como exemplo, no estudo JUPITER, que avaliou a rosuvastatina na prevenção primária de eventos cardiovasculares, o grupo estatina teve um odds ratio de 0,46 para IAM em comparação com controle e o intervalo de confiança (IC) foi de 0,30 a 0,70; o valor p foi 0,0002. Isso significa que a rosuvastatina reduziu em 54% o risco de IAM em relação ao controle nesta amostra e temos 95% de certeza que esta redução oscila entre 30% e 70% na população. Além disso, a chance dessa diferença ser falsa, isto é, da rosuvastatina não funcionar, é de apenas 0,02%.

Mas agora imaginem o seguinte cenário: o estudo CIBIS comparou bisoprolol e placebo na ICFER e mostrou que o OR para morte foi 0,80 com IC 95% 0,56 a 1,15 e p=0,22. Há uma chance de 22% desta diferença não existir! Será o bisoprolol inútil? O artigo da NEJM justamente discute este cenário. Quando você ler um artigo “negativo”, não pare no resumo. Abra o texto completo e siga o seguinte passo a passo:

1. Há um “trend”, isto é, o RR ou o OR foi bom e o teste estatístico foi limítrofe? Como exemplo, no estudo TORCH, avaliando salmeterol + fluticasona vs placebo em pacientes com DPOC houve p=0,052. Será este um estudo negativo? Provavelmente não… Um 0,052 não é muito diferente de 0,050!

2. No estudo que você está avaliando, houve cálculo do tamanho amostral? O erro tipo II (ou beta) é justamente a chance de aceitarmos a hipótese nula, isto é, que não há diferenças, quando na verdade existia diferença. É um falso negativo do ensaio clínico. Há estatisticamente como mostrarmos o poder do estudo, isto é, a capacidade de com aquele tamanho amostral encontrarmos a diferença que estamos almejando entre os grupos. Aceita-se na literatura ensaios com poder > 80%.

3. O desfecho primário foi adequadamente proposto? É preciso ter equilíbrio. Um estudo que avalie apenas morte como desfecho primário com certeza é muito importante, mas se a doença matar pouco serão necessárias milhões de pessoas para conseguir mostrar a diferença entre os grupos e o estudo será inexequível. Já um estudo que junte muitos desfechos pode tomar conclusões precipitadas. É comum estudos em cardiologia juntarem morte, AVC e IAM – todos complicações da aterosclerose. Mas juntar morte, AVC, IAM e dor anginosa pode criar um viés. Será a redução da dor anginosa tão importante quanto os outros eventos?

4. A população escolhida foi adequada? Estudar uma droga em uma população de baixo risco pode não mostrar benefício se o desfecho analisado for muito raro. Exemplo: estudar se um anti-hipertensivo reduz o risco de IAM em jovens com menos de 40 anos pode ter resultado negativo simplesmente porque é muito raro infartar com essa idade! Mas atenção: o outro lado da moeda também é verdade: mostrar que um anti-hipertensivo reduz o risco de AVC em pessoas de maior risco não quer dizer que o mesmo ocorrerá na população em geral, comprometendo a capacidade de generalizar aquele resultado para o mundo real.

5. A dose estudada foi a mais adequada? O ideal é a dose se basear em estudos de fase 2, com um equilíbrio entre eficácia vs risco de eventos adversos.

6. Os sítios do estudo seguiram o protocolo? Um sítio que não reporte eventos adversos ou não monitore a adesão ao tratamento pode atrapalhar todo o resultado do grupo. Lembrar que há países que permitem que o pesquisador seja remunerado pelo número de pacientes que entram no estudo e isso pode ser um estímulo perigoso. Por isso, todo estudo internacional sério conta com uma equipe de monitoria, que avalia se os centros estão seguindo corretamente a norma. É como uma fiscalização.

7. Um cuidado especial: o estudo foi desenhado para mostrar que o tratamento é superior ou igual (equivalente)? O tratamento estatístico é diferente. Se o estudo foi planejado para mostrar superioridade e o resultado não é significativo, isto não pode dar certeza que os tratamentos são equivalentes! Apenas mostrou “que não é superior”.

8. Cuidado com a análise de subgrupos e os desfechos secundários: o que vale no ensaio clínico é o desfecho principal. A análise “post hoc” é sujeita a viés. Contudo, não quer dizer que tenhamos que “jogar fora” um resultado post hoc. Ele servirá como um “pode haver um benefício” e indica um caminho para outro estudo. No estudo SYNTAX, a angioplastia com stent farmacológico foi comparada com a cirurgia de revascularização em pacientes com doença trivascular e/ou doença de tronco da coronária esquerda. O resultado final do estudo mostrou resultados melhores com a cirurgia. Contudo, no subgrupo de pacientes com lesão apenas de tronco, houve equivalência (ou até uma discreta superioridade!) da angioplastia. Isso não autoriza passarmos a tratar toda lesão de tronco com angioplastia! O certo é desenhar um estudo planejado especificamente para essa hipótese. E isso está sendo feito (EXCEL trial).

9. Atenção ao tipo de análise. A forma adequada para se analisar os resultados de um ensaio clínico é o protocolo “intention-to-treat”. Isto é, os pacientes são analisados nos grupos para os quais eles foram alocados. Contudo, por questões éticas, os pacientes podem acabar “migrando de grupo” ao longo do estudo. Por exemplo, no estudo BARI 2D, comparou-se revascularização do miocárdio (cirurgia e/ou angioplastia) e tratamento clínico em pacientes com DM2. O resultado final mostrou que a incidência de morte, AVC e IAM foi semelhante entre os grupos. Contudo, 42% (!!!) dos pacientes inicialmente alocados no grupo de tratamento clínico acabaram realizando revascularização. Será então correto comparar os dois grupos igualmente? Uma solução seria realizar a análise pela técnica “as treated” ou “per protocol”, deixando nos grupos apenas os pacientes alocados de fato para o tratamento inicialmente proposto – no exemplo do BARI 2D, comparando quem ficou só com tratamento clínico vs quem fez revascularização. Infelizmente, esse tipo de análise aumenta o risco de viés – ficou em tratamento clínico quem tinha maior adesão? Ou os mais pobres, sem acesso a recursos complexos? Tudo isso interfere nas conclusões finais.

10. O ditado “uma andorinha não faz verão” é uma boa lição na medicina baseada em evidências. Um estudo negativo não deve ser o suficiente para você abandonar de vez uma hipótese. Ajustes no desenho, seleção de pacientes, recrutamento, dose, entre outros, pode ser o motivo do resultado frustrante. Da mesma forma não podemos tomar conclusões definitivas com base em apenas um ensaio clínico. Recentemente, dois exemplos na terapia intensiva confirmaram essa hipótese. Os primeiros ensaios de controle glicêmico intensivo e de corticoterapia na sepse mostram resultados promissores. Logo, a maioria das unidades em todo o mundo já estava aplicando isso na prática. Contudo, ensaios maiores (NICE-SUGAR e CORTICUS), com populações mais próximas ao mundo real e multicêntricos, não conseguiram confirmar os resultados.

ronaldo

250x250-1

As melhores condutas médicas você encontra no Whitebook. Baixe o aplicativo #1 dos médicos brasileiros. Clique aqui!

Referências:

  • https://www.nejm.org/doi/full/10.1056/NEJMra1510064?query=TOC

Como você avalia este conteúdo?

Sua opinião ajudará outros médicos a encontrar conteúdos mais relevantes.

Compartilhar artigo

Ronaldo GismondiRonaldo Gismondi
Editor-chefe de Medicina da Afya ⦁ Pós-doutorado em Medicina pela Universidade do Estado do Rio de Janeiro (UERJ) ⦁ Residência em Clínica Médica (UFRJ) e Cardiologia (Insitituto Nacional de Cardiologia) ⦁ Mestrado em Medicina pela Universidade do Estado do Rio de Janeiro e Doutorado em Medicina pela Universidade do Estado do Rio de Janeiro (2015) ⦁ Graduação em Medicina pela Universidade Federal Fluminense ⦁ Coordenador da Cardiologia do Niterói D’Or ⦁ Professor da Universidade Federal Fluminense (UFF)