Home // Posts tagged "statistics" (Page 5)

Para pensar depois: Theil Index

The formula is

T = 1/N \sum (x_i/[x]) ln (x_i/[x])

where x_i is the income of the ith person, [x] is the mean income (não consigo colocar overbar ou brackets aqui), and N is the number of people. The first term inside the sum can be considered the individual’s share of aggregate income, and the second term is that person’s income relative to the mean. If everyone has the same (i.e., mean) income, then the index = 0. If one person has all the income, then the index = lnN.

The Theil index is derived from Shannon‘s measure of information entropy. Letting T be the Theil Index and S be Shannon’s information entropy measure,T = ln(N) − S.

Shannon derived his entropy measure in terms of the probability of an event occurring. This can be interpreted in the Theil index as the probability a dollar drawn at random from the population came from a specific individual. This is the same as the first term, the individual’s share of aggregate income.

Theil’s index takes an equal distribution for reference which is similar to distributions in statistical physics. An index for an actual system is an actual redundancy, that is, the difference between maximum entropy and actual entropy of that system.


Theil’s measure can be converted into one of the indexes of
Anthony Barnes Atkinson. James E. Foster used such a measure to replace the Gini coefficient in Amartya Sen‘s welfare function W=f(income,inequality). The income e.g. is the average income for individuals in a group of income earners. Thus, Foster’s welfare function can be computed directly from the Theil index T, if the conversion is included into the computation of the average per capita welfare function:
W = exp(-T)

Esse índice de Theil realmente me parece melhor que o índice de Gini. Notar que não é uma entropia (pois x_i se refere a um individuo i em um rank plot). É na verdade uma medida de dispersão em um rank-plot. Porém o uso do termo x_i/[x] parece limitante, pois inviabiliza seu uso para rank-plots com expoentes altos (ou pdfs com expoentes baixos, ou seja, com divergência do primeiro momento ).

Mas por que não usar simplesmente um índice :

T’ = – \sum f_i ln f_i /ln R,

onde f_i = x_i/R é a fração da renda total R que o indivíduo i possui. Assim, se apenas uma pessoa possui a renda total, teriamos K = 0 e se todos têm a mesma renda, K = 1.

Hummm… Ok, ok: Temos que R = [x] N , portanto as duas definições são idênticas (a menos de um fator de normalização ln N). A renda total R, assim como [x], depende de forma forte da cauda da distribuição, e diverge quando N cresce para distribuições com leis de potência. Não foi dessa vez que fiquei famoso…
Update: Nova tentativa. E se eu usar y_i = x_i/sigma como medida normalizada de renda. Ou seja, usar a função K (de Kinouchi? que megalomania!)

K = – \sum y_i ln y_i

Aparentemente esta função exige apenas a não divergência do segundo momento (ou da variância), e portanto parece ser mais robusta. Vejamos.

Na completa igualdade temos todos os y_i = R/(N sigma) e K_max = – R/sigma ln(R/(N sigma)) = – N [x]/sigma ln ([x]/sigma). Posso usar K_max como fator de normalização mais tarde, mas eu queria algo independente de [x]. Bom, então parece que, me parece que a dependência em N no denominador faz com que K_max diverge para infinito (pois sigma tende a zero) e não tem jeito.

Quando apenas uma pessoa possue toda a renda, temos K = – ln R/sigma, R = N [x] diverge e sigma também (mostre isso!), e portanto preciso examinar como se comporta R/sigma. Me parece que R cresce com N mais rápido que sigma, e portanto acho que K vai para menos infinito.

Por outro lado, em um caso intermediário onde sigma é finito e [x] divergente (e portanto R = N[x] divergente), a função K diverge também. Ou seja, se [x] diverge, a função K diverge, não importa se sigma diverge ou não. Ou seja, estou confuso e acho que devo desistir. Ou pelo menos, pensar nisso depois.

Update2: Acho que se em vez de eu usar logs, eu usar algo como entropia de Tsalis, talvez eu possa controlar essas divergências e fazer um índice de Theil não divergente para distribuições com caudas longas. Ou então eu posso piorar ainda mais a situação. Vamos ver.