Probabilidade bayesiana
Probabilidade bayesiana é uma interpretação do conceito de probabilidade, na qual, ao invés da frequência ou propensão de algum fenômeno, a probabilidade é interpretada como uma expectativa razoável que representa um estado de conhecimento ou como a quantificação de um dado pessoal crença.
A interpretação bayesiana da probabilidade pode ser vista como uma extensão da lógica proposicional que permite raciocinar com hipóteses; isto é, com proposições cuja verdade ou falsidade é desconhecida. Na visão bayesiana, uma probabilidade é atribuída a uma hipótese, enquanto na inferência frequentista, uma hipótese é tipicamente testada sem ser atribuída uma probabilidade.
A probabilidade bayesiana pertence à categoria das probabilidades evidenciais; para avaliar a probabilidade de uma hipótese, o probabilista bayesiano especifica uma probabilidade anterior. Isso, por sua vez, é atualizado para uma probabilidade posterior à luz de novos dados relevantes (evidência). A interpretação bayesiana fornece um conjunto padrão de procedimentos e fórmulas para realizar esse cálculo.
O termo Bayesiano deriva do matemático e teólogo do século XVIII Thomas Bayes, que forneceu o primeiro tratamento matemático de um problema não trivial de análise de dados estatísticos usando o que hoje é conhecido como inferência bayesiana. O matemático Pierre-Simon Laplace foi pioneiro e popularizou o que hoje é chamado de probabilidade bayesiana.
Metodologia Bayesiana
Os métodos Bayesianos são caracterizados por conceitos e procedimentos como segue:
- O uso de variáveis aleatórias, ou mais quantidades geralmente desconhecidas, para modelar todas as fontes de incerteza em modelos estatísticos, incluindo incerteza resultante da falta de informação (ver também incerteza aleatória e epistemática).
- A necessidade de determinar a distribuição de probabilidade prévia tendo em conta as informações disponíveis (prior).
- O uso sequencial do teorema de Bayes: à medida que mais dados se tornam disponíveis, calcula a distribuição posterior usando o teorema de Bayes; posteriormente, a distribuição posterior se torna a próxima prévia.
- Enquanto para o freqüentista, uma hipótese é uma proposição (que deve ser verdadeira ou falsa) para que a probabilidade freqüentista de uma hipótese seja de 0 ou 1, em estatísticas bayesianas, a probabilidade que pode ser atribuída a uma hipótese também pode estar em um intervalo de 0 a 1 se o valor da verdade é incerto.
Probabilidades bayesianas objetivas e subjetivas
De um modo geral, existem duas interpretações da probabilidade bayesiana. Para os objetivistas, que interpretam a probabilidade como uma extensão da lógica, a probabilidade quantifica a expectativa razoável de que todos (mesmo um "robô") que compartilham o mesmo conhecimento devem compartilhar de acordo com as regras da estatística bayesiana, que pode ser justificada pelo teorema de Cox. Para os subjetivistas, probabilidade corresponde a uma crença pessoal. Racionalidade e coerência permitem variações substanciais dentro das restrições que impõem; as restrições são justificadas pelo argumento do livro holandês ou pela teoria da decisão e pelo teorema de de Finetti. As variantes objetivas e subjetivas da probabilidade bayesiana diferem principalmente em sua interpretação e construção da probabilidade anterior.
História
O termo Bayesiano deriva de Thomas Bayes (1702–1761), que provou ser um caso especial do que agora é chamado de Bayes' teorema em um artigo intitulado "Um ensaio para resolver um problema na doutrina das chances". Nesse caso especial, as distribuições anteriores e posteriores eram distribuições beta e os dados vieram dos ensaios de Bernoulli. Foi Pierre-Simon Laplace (1749–1827) quem introduziu uma versão geral do teorema e o usou para abordar problemas de mecânica celeste, estatística médica, confiabilidade e jurisprudência. A inferência bayesiana inicial, que usava prioris uniformes seguindo o princípio de razão insuficiente de Laplace, era chamada de "probabilidade inversa" (porque infere retroativamente de observações para parâmetros, ou de efeitos para causas). Após a década de 1920, a "probabilidade inversa" foi largamente suplantada por uma coleção de métodos que vieram a ser chamados de estatísticas frequentistas.
No século XX, as ideias de Laplace desenvolveram-se em duas direções, dando origem a correntes objetivas e subjetivas na prática bayesiana. Harold Jeffreys' A Teoria da Probabilidade (publicada pela primeira vez em 1939) desempenhou um papel importante no renascimento da visão bayesiana da probabilidade, seguida pelos trabalhos de Abraham Wald (1950) e Leonard J. Savage (1954). O próprio adjetivo Bayesiano data da década de 1950; o Bayesianismo derivado, neo-Bayesianismo, é cunhado na década de 1960. Na corrente objetivista, a análise estatística depende apenas do modelo assumido e dos dados analisados. Nenhuma decisão subjetiva precisa ser envolvida. Em contraste, "subjetivista" os estatísticos negam a possibilidade de uma análise totalmente objetiva para o caso geral.
Na década de 1980, houve um crescimento dramático na pesquisa e aplicações de métodos bayesianos, principalmente atribuídos à descoberta dos métodos Monte Carlo da cadeia de Markov e à consequente remoção de muitos dos problemas computacionais, e a um interesse crescente em métodos não padronizados, aplicações complexas. Embora a estatística frequentista permaneça forte (como demonstrado pelo fato de que grande parte do ensino de graduação é baseado nela), os métodos bayesianos são amplamente aceitos e usados, por exemplo, no campo de aprendizado de máquina.
Justificativa das probabilidades Bayesianas
O uso de probabilidades bayesianas como base da inferência bayesiana tem sido apoiado por vários argumentos, como os axiomas de Cox, o argumento do livro holandês, argumentos baseados na teoria da decisão e o teorema de de Finetti.
Abordagem axiomática
Richard T. Cox mostrou que a atualização bayesiana decorre de vários axiomas, incluindo duas equações funcionais e uma hipótese de diferenciabilidade. A suposição de diferenciabilidade ou mesmo continuidade é controversa; Halpern encontrou um contra-exemplo baseado em sua observação de que a álgebra booleana de declarações pode ser finita. Outras axiomatizações têm sido sugeridas por diversos autores com o objetivo de tornar a teoria mais rigorosa.
Abordagem do livro holandês
Bruno de Finetti propôs o argumento do livro holandês baseado em apostas. Uma casa de apostas inteligente faz uma aposta holandesa definindo as probabilidades e apostas para garantir que a casa de apostas lucre - às custas dos jogadores - independentemente do resultado do evento (uma corrida de cavalos, por exemplo) em que os jogadores apostam. Está associado a probabilidades implícitas pelas probabilidades não serem coerentes.
No entanto, Ian Hacking notou que os argumentos tradicionais do livro holandês não especificavam a atualização Bayesiana: eles deixavam em aberto a possibilidade de que regras de atualização não-Bayesianas pudessem evitar livros holandeses. Por exemplo, Hacking escreve “E nem o argumento do livro holandês, nem qualquer outro no arsenal personalista de provas dos axiomas de probabilidade, implica a suposição dinâmica. Nenhum implica bayesianismo. Portanto, o personalista requer que a suposição dinâmica seja bayesiana. É verdade que, em consistência, um personalista poderia abandonar o modelo bayesiano de aprender com a experiência. O sal pode perder o sabor."
Na verdade, existem regras de atualização não bayesianas que também evitam livros holandeses (como discutido na literatura sobre "cinemática de probabilidade" após a publicação da regra de Richard C. Jeffrey, que é ela mesma considerada bayesiana). As hipóteses adicionais suficientes para (exclusivamente) especificar a atualização bayesiana são substanciais e não universalmente vistas como satisfatórias.
Abordagem da teoria da decisão
Uma justificativa teórica de decisão do uso da inferência bayesiana (e, portanto, das probabilidades bayesianas) foi dada por Abraham Wald, que provou que todo procedimento estatístico admissível é um procedimento bayesiano ou um limite de procedimentos bayesianos. Por outro lado, todo procedimento bayesiano é admissível.
Probabilidades pessoais e métodos objetivos para construir prioris
Seguindo o trabalho sobre a teoria da utilidade esperada de Ramsey e von Neumann, os teóricos da decisão explicaram o comportamento racional usando uma distribuição de probabilidade para o agente. Johann Pfanzagl completou a Teoria dos Jogos e Comportamento Econômico fornecendo uma axiomatização da probabilidade subjetiva e utilidade, uma tarefa deixada incompleta por von Neumann e Oskar Morgenstern: sua teoria original supunha que todos os agentes tinham a mesma probabilidade distribuição, por conveniência. A axiomatização de Pfanzagl foi endossada por Oskar Morgenstern: "Von Neumann e eu antecipamos... [a questão se as probabilidades] poderiam, talvez mais tipicamente, ser subjetivas e afirmamos especificamente que, no último caso, os axiomas poderiam ser encontrado do qual poderia derivar a utilidade numérica desejada junto com um número para as probabilidades (cf. p. 19 de The Theory of Games and Economic Behavior). Nós não realizamos isso; foi demonstrado por Pfanzagl... com todo o rigor necessário".
Ramsey e Savage notaram que a distribuição de probabilidade do agente individual poderia ser estudada objetivamente em experimentos. Procedimentos para testar hipóteses sobre probabilidades (usando amostras finitas) são devidos a Ramsey (1931) e de Finetti (1931, 1937, 1964, 1970). Tanto Bruno de Finetti quanto Frank P. Ramsey reconhecem suas dívidas para com a filosofia pragmática, particularmente (para Ramsey) para com Charles S. Peirce.
O "teste de Ramsey" para avaliar distribuições de probabilidade é implementável em teoria e manteve os psicólogos experimentais ocupados por meio século. Este trabalho demonstra que proposições de probabilidade Bayesiana podem ser falsificadas, e assim atender a um critério empírico de Charles S. Peirce, cujo trabalho inspirou Ramsey. (Esse critério de falseabilidade foi popularizado por Karl Popper.)
O trabalho moderno na avaliação experimental de probabilidades pessoais usa os procedimentos de randomização, cegueira e decisão booleana do experimento de Peirce-Jastrow. Uma vez que os indivíduos agem de acordo com diferentes julgamentos de probabilidade, esses agentes podem probabilidades são "pessoais" (mas passível de estudo objetivo).
Probabilidades pessoais são problemáticas para a ciência e para algumas aplicações em que os tomadores de decisão não têm conhecimento ou tempo para especificar uma distribuição de probabilidade informada (na qual estão preparados para agir). Para atender às necessidades da ciência e das limitações humanas, os estatísticos Bayesianos desenvolveram testes "objetivos" métodos para especificar probabilidades anteriores.
De fato, alguns bayesianos têm argumentado que o estado anterior de conhecimento define a (única) distribuição de probabilidade anterior para eventos "regulares" problemas estatísticos; cf. problemas bem colocados. Encontrar o método certo para construir tal "objetivo" priors (para classes apropriadas de problemas regulares) tem sido a busca de teóricos estatísticos de Laplace a John Maynard Keynes, Harold Jeffreys e Edwin Thompson Jaynes. Esses teóricos e seus sucessores sugeriram vários métodos para a construção de teorias "objetivas" priors (Infelizmente, não está claro como avaliar a relativa "objetividade" dos priores propostos sob esses métodos):
- Entropia máxima
- Análise do grupo de transformação
- Análise de referência
Cada um desses métodos contribui com prioris úteis para testes "regulares" problemas de um parâmetro, e cada anterior pode lidar com alguns modelos estatísticos desafiadores (com "irregularidade" ou vários parâmetros). Cada um desses métodos tem sido útil na prática bayesiana. De fato, os métodos para construir "objetivos" (alternativamente, "padrão" ou "ignorância") foram desenvolvidos por bayesianos subjetivos declarados (ou "pessoais") como James Berger (Duke University) e José- Miguel Bernardo (Universitat de València), simplesmente porque tais priores são necessários para a prática Bayesiana, particularmente na ciência. A busca pelo "método universal de construção de priores" continua a atrair teóricos estatísticos.
Assim, o estatístico bayesiano precisa usar prioris informados (usando experiência relevante ou dados anteriores) ou escolher entre os métodos concorrentes para construir dados "objetivos" priores.
Contenido relacionado
Conjunto nulo
Domínio integral
Quilo-