.Probleminha: Lei de Zipf

Link do problema para dispositivos da Apple.

Problema
(Indicado a partir do 9º ano do E. F.)


Estudos com textos de várias línguas indicam que as frequências das palavras nesses textos seguem, aproximadamente, a Lei de Zipf:

  • ao contarmos quantas vezes aparecem cada uma das palavras de um texto, o número de ocorrência [tex]f(n)[/tex] da [tex]n[/tex]-ésima palavra mais frequente é inversamente proporcional a [tex]n[/tex], ou seja,
    [tex]\qquad f(n)\approx \dfrac{k}{n}[/tex],
    em que [tex]k[/tex] é uma constante de proporcionalidade que depende do texto em questão.

A lei é nomeada em homenagem a George Kingsley Zipf, linguista da Universidade de Harvard, que a popularizou na década de 1940 por meio de sua obra Human Behaviour and the Principle of Least-Effort (“Comportamento Humano e o Princípio do Menor Esforço”).
A Lei de Zipf tem algumas aplicações interessantes como, por exemplo, acreditava-se que o livro medieval Código Voynich(*), indecifrado até hoje, pudesse ser um livro falso, uma fraude. Porém, como o texto do Código segue a Lei de Zipf, isso indica que o livro deve estar escrito em alguma linguagem desconhecida, ao invés de ser pura invenção.



(*) Plantas imaginárias.
O manuscrito Voynich encontra-se dividido em várias “secções”, segundo o tipo de ilustrações que figura em cada página. A mais extensa é a primeira, um “herbário”, no qual são reproduzidas 113 plantas. Em seguida, aparece uma série de diagramas circulares zodiacais ou astrológicos, grupos de mulheres nuas banhando-se em piscinas, mais imagens astronómicas, uma secção “farmacológica,” etc. As plantas desenhadas são tão enigmáticas como o texto que as acompanha, uma vez que não foi possível identificá-las com nenhuma espécie real.

Imagem e texto extraídos do site National Geographic . (Acesso em 16/02/2024.)



Na obra Fausto de J. W. Goethe, a nona palavra mais frequente é sich, que ocorre [tex]770[/tex] vezes. Calcule a constante de proporcionalidade da Lei de Zipf para o texto Fausto e o número aproximado de vezes que a segunda palavra mais frequente ocorre.

Adaptado da XXV OPM .

Solução


Pela Lei de Zipf temos [tex]f(9)\approx\dfrac{k}{9}=770[/tex], ou seja, [tex]k=9\times 770=6930[/tex].
Portanto, a constante de proporcionalidade para a obra Fausto é [tex]\boxed{k=6930}.[/tex]

Com o valor da constante de proporcionalidade conhecido, podemos aproximar o número de ocorrência da segunda palavra mais frequente da obra Fausto de Goethe, mesmo sem saber qual é essa palavra:
[tex]\qquad \qquad f(2)\approx \dfrac{6930}{2}=3465.[/tex]


Solução elaborada pelos Moderadores do Blog.

Link permanente para este artigo: http://clubes.obmep.org.br/blog/probleminha-lei-de-zipf/