Se você gostaria de evitar um acidente de trânsito fatal, o que você deve fazer? Dirigir mais devagar? Evitar beber álcool? Roberts e Winters encontraram essa correlação entre acidentes de trânsito e acácias.

Então o que está acontecendo? Alguém está plantando acácias nos cruzamentos e bloqueando a visão? As acácias deixam cair as folhas de forma surpreendente causando acidentes? Você não esperaria que uma folha caindo causasse um acidente, mas talvez seja esse imprevisto que cause o problema. O lenhador direcionado tornará as estradas mais seguras? A correlação é real e é isso mesmo: uma correlação.
Só porque um resultado se correlaciona com outro, isso não significa que você pode traçar uma linha implicando causalidade. No meu caso, sugeri que as acácias causam acidentes de trânsito. Poderia ser o contrário. Acidentes fatais causam acácias? Talvez as pessoas plantem acácias como um memorial para aqueles que morreram. Muitas vezes, há uma razão mais profunda para uma conexão.
papel de Roberts e Winters, Diversidade Linguística e Acidentes de Trânsito: Lições de Estudos Estatísticos de Traços Culturais destina-se a pessoas que procuram correlações em dados linguísticos e culturais, mas seus avisos se aplicam a qualquer pessoa que trabalhe com dados complexos, especialmente se você não definir uma questão de pesquisa ao iniciar seu estudo.
Uma característica que eles destacam é o acidente histórico. Eles encontram uma correlação entre as acácias e as línguas tonais. Um causa o outro? As línguas tonais são mais comumente encontradas na África, e as línguas tendem a se agrupar porque têm raízes históricas comuns. As acácias são (principalmente) encontradas na África. Não há uma grande percepção da correlação, simplesmente que você tem duas coisas em comum na África. Se você pensar na segurança comparativa das estradas na África, fica claro por que há uma correlação entre Acácias e acidentes de trânsito.
Outra característica de fazer conexões entre conjuntos de dados é que as correlações podem acontecer por acaso. Você pode quantificar a probabilidade de um resultado ser devido ao acaso, mas isso por si só diz pouco sobre o significado do resultado. Se um resultado tem apenas 1% de probabilidade de ser devido ao acaso, mas você executou 100 testes, deve esperar cerca de um resultado estranho. Quanto mais coisas você olhar, mais chances haverá de encontrar resultados espúrios. O artigo original traz uma citação útil de Nassim Nicholas Taleb: “Esta é a tragédia do big data: quanto mais variáveis, mais correlações podem mostrar significância. A falsidade também cresce mais rápido que a informação; é não linear (convexo) em relação aos dados.”
É assim que Roberts e Winters podem montar uma cadeia de correlações espúrias. É um artigo valioso para se referir, da próxima vez que você se deparar com um artigo que produz resultados peculiares. Você também pode leia a postagem no blog deles sobre o papel.

Referência
Roberts S. & Winters J. (2013). Diversidade linguística e acidentes de trânsito: lições de estudos estatísticos de traços culturais.,
PloS um,DOI: 10.1371 / journal.pone.0070902
Imagens
O número médio de mortes anuais na estrada por 100,000 pessoas dentro de um país em função da presença de Acacia nilotica. Imagem de Seán Roberts e James Winters. [cc]por[/cc]
Correlação. Imagem por Randall Munroe/xkcd. [cc]por-nc[/cc]
