Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Microsiervos

Publicado en: 25/01/2020 09:38

Escrito por: [email protected] (Alvy)

El 0,1% más popular de los artículos de la Wikipedia acumula el 25% de las consultas; no debería sorprender pero se antoja un poco injusto

Todo el mundo ha oído hablar de un modo u otro de la Distribución de Pareto, de la «regla del 80-20» o el principio de Pareto y aquello de que en muchos ámbitos cuando una población o actos contribuyen a un «efecto común» suele suceder que una proporción pequeña es la que contribuye a la mayor parte del efecto. Está relacionada con la ley de Bradford y en este ejemplo con la curva de Lorenz, que se lee como un porcentaje acumulativo.

Para analizar este tipo de datos Felipe Hoffa ha publicado un artículo titulado Inequality: How to plot a Lorenz curve with SQL, BigQuery, and Data Studio donde explica cómo aplicar este tipo de análisis utilizando una combinación de herramientas. Es un poco técnico pero interesante y con suficientes enlaces como para aprender e investigar más al respecto.

Como conjunto de datos de ejemplo Hoffa ha utilizado los datos de audiencia de la Wikipedia, que son públicos. La enciclopedia libre recientemente ha llegado a los 6 millones de artículos publicados en inglés. Cada una de esos millones de páginas individuales recibe más o menos visitas a lo largo del día, contribuyendo de este modo de forma común a una audiencia total realmente masiva (#13 del mundo actualmente, según Alexa.)

Pero aquí viene la «gracia» del asunto: si se hace una gráfica de la curva de Lorenz, se ve claramente la «desigualdad» de esos contenidos. El 0,1% más popular de los artículos de la Wikipedia acumula el 25% de …

Top noticias del 25 de Enero de 2020