Ricardo Baeza-Yates
Barbara J. Poblete
Felipe Saint-Jean
Centro de Investigación de la Web
Depto. de Ciencias de la Computación
Universidad de Chile
Enero 2003
|
|
La Web se caracteriza por estar definida por un conjunto inusual y heterogéneo de elementos. Las mismas características que la hacen un importantísimo medio de difusión y comunicación, hacen muy complejo su análisis. Debido a esto surge el interés y la importancia de realizar periódicamente una descripción de sus principales características y de su evolución en el tiempo. Dado el enorme tamaño de la Web en la actualidad se hace fundamental el estudio de subconjuntos de esta, en el caso de este estudio se analizará la Web Chilena, a través de los datos recopilados por el buscador chileno TodoCL, parte del spin-off Barcino Ltda. del Departamento de Ciencias de la Computación de la Universidad de Chile, en colaboración con Akwan (Brasil).
Este estudio recopila los datos recogidos por TodoCL en el periodo del 2001 y 2002, lo cual permite llevar a cabo diversas comparaciones entre estos dos años.
El análisis realizado se divide en tres partes principales. En la primera parte se estudian los contenidos de la Web Chilena, principalmente el número de elementos encontrados a nivel de páginas, sitios y dominios. Destacando que una gran parte de los sitios y dominios chilenos poseen sólo una página, concentrándose de esta forma la mayor parte del contenido en unos pocos sitios. También se presentan estadísticas de los sitios de mayor tamaño en Mbytes de la Web Chilena, y del uso de los diferentes medios y formatos. La segunda parte de este estudio se refiere a la topología de la Web Chilena dado por un análisis de su conectividad a nivel de sitios y dominios. En este análisis se pueden ver las componentes más importantes de la Web Chilena y a su vez se puede observar como han ido variando los sitios y dominios que las conforman en la medida que pasa el tiempo. También es importante observar el número de sitios que han ido desapareciendo de la Web en cada una de las componentes. La tercera y última parte de este estudio se enfoca en la información proporcionada por los usuarios de TodoCL, es decir, en las consultas que ellos realizan a través del buscador. Esto permite observar el conjunto de las palabras más buscadas en Chile. Para finalizar se realizaran algunas conclusiones principales del estudio.
El buscador utilizado para este estudio, TodoCL, es un buscador de indexación automática, al igual que Google2y AlltheWeb3 El proceso de recolección de páginas realizado por estos buscadores tiene dos componentes principales, un recolector de páginas que es un programa que comienza recorriendo e indexando sitios predeterminados, estos puntos son los puntos de partida, para luego seguir recorriendo todos aquellos sitios que son apuntados por los primeros en forma recursiva. La otra componente, en la recolección de páginas, es el planificador, que se encarga de coordinar el funcionamiento simultáneo de varios recolectores.
Para obtener los datos necesarios para este estudio, se utiliza entonces el recolector y el scheduler de TodoCL. Como puntos de partida TodoCL utiliza principalmente páginas bajo el dominio .CL más algunas páginas en el dominio .NET y .COM pertenecientes a empresas Chilenas. Para el procedimiento recursivo de recolección de páginas TodoCL recorre e indexa todas las páginas Chilenas que encuentra el recolector en su camino.
Cabe destacar que en el proceso de recolección no sólo se indexan páginas HTML, sino que también son indexados el texto de páginas en formato PDF, PostScript y Word, después de ser pasadas por un filtro.
Los archivos binarios (.MP3, .AVI, WAV, etc.) no son recolectados y por lo tanto no se incorporan a la colección.
Otros conceptos importantes en cuanto a los buscadores son:
La ley de Zipf lleva el nombre del profesor de lingüística de Harvard,
George Kingsley Zipf (1902-1950). Es básicamente una distribución
en la cual, si definimos
como la frecuencia de ocurrencia
del
-ésimo evento más frecuente, tendremos que
Al ser la ley de Zipf una función exponencial, al graficar
en escala logarítmica veremos una línea recta, cuya pendiente será
el inverso aditivo del exponente o parámetro de Zipf.
En la tabla
se muestran los valores
de las colecciones de documentos recolectados por el buscador de TodoCL
para los años 2000, 2001 y 2002. Estos documentos corresponden a todos
los dominios no .CL que se encuentran en Chile y todos los dominios
.CL tanto dentro como fuera de Chile, encontrados por el buscador.
|
cabe destacar que no
todas las páginas chilenas son recolectadas por el buscador, ya que
algunas de ellas están marcadas como páginas no indexables por sus
administradores. Por ejemplo, las páginas que aún no tienen dominio
DNS asignado muestran una página de cortesía perteneciente al NIC
Chile4 que está marcada como no indexable, de manera de no distorsionar
la colección, ya que son muchos los dominios en este estado. De esta
misma tabla es importante observar el aumento que se ha producido
año a año en las cifras globales de la Web Chilena. Se puede ver que
el número de sitios y dominios prácticamente se duplica cada año.
Como se mencionó anteriormente la mayor parte de las páginas que recolecta
TodoCL pertenecen al dominio .CL, las cifras exactas de las páginas,
sitios y dominios .CL encontrados el año 2002 por el buscador son
las de la tabla
|
En la tabla
vemos datos sobre
las ubicaciones de los sitios chilenos. Este estudio se hizo según
en número IP del servidor y su pertenencia o no a redes chilenas.
Los números no son del todo consistentes con los anteriores, dado
que para muchos sitios el DNS no respondió5 Es interesante ver la cantidad de sitios del dominio .CL que no están
en Chile. No es posible determinar sitios de dominio no .CL chilenos
ubicados fuera de Chile.
|
|
Una porción importante de los dominios inscritos no se utiliza, y
de los que se utilizan, muchos tienen sólo una página, la página de
presencia. En la Web Chilena, el 56% de los dominios y el 54% de
los sitios tienen sólo una página. La figura
muestra la cantidad de páginas por sitio para el año 2002. En este
gráfico se puede observar que la distribución de páginas puede ser
aproximada por una Zipf con parámetro 1.58 Esta distribución
es muy similar a lo observado en el año 2001, representado por una
Zipf con parámetro 1.8
En comparación con el 2001, en que un 45% de los sitios tenía sólo
una página, vemos que en el 2002 se produce un aumento porcentual
y absoluto en el número de sitios con una sola página. Esto puede
explicarse por el gran aumento de dominios inscritos, muchos de los
cuales sólo poseen una página de presencia.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
En la tabla
se pueden ver los sitios
con mayor número de páginas en Chile para los años 2001 y 2002.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
En la tabla
se presentan los dominios
chilenos con mayor número de sitios para los años 2001 y 2002 respectivamente.
| ||||||||||||||||||||||||||||||||||||||||||||||||
El tamaño promedio de una página en la Web Chilena es de 11.562 bytes, considerando sólo el texto y tags HTML. Sólo el 4% de las páginas tiene más de 40kb de texto.
El tamaño de los sitios refleja el nivel de contenido que hay en ellos. En el 2000, el 1% de los sitios más grandes aportaba con el 60% del tamaño, en el 2001 aportan con el 40%, lo que indica que la Web es más equilibrada que antes, en el sentido que, proporcionalmente, son más los sitios que aportan contenido.
En la tabla
se pueden ver los sitios
con mayor contenido en tamaño en Mbytes para el año 2001, considerando
el tamaño del sitio completo, es decir, incluyendo archivos no indexables.
|
, que representa el contenido en texto
plano, sin incluir archivos binarios ni tags HTML, de los sitios en
el año 2002.
|
En la figura
se presenta una comparación
entre los datos recopilados el año 2001, que contienen el tamaño completo
de los sitios, y los datos del año 2002, que contienen el tamaño en
texto plano de los sitios. A estos datos les fue ajustado una
de coeficientes
y
, para el 2001 y 2002 respectivamente.
Además del HTML en la Web existen contenidos de diversos tipos, los que también son interesantes de indexar y recuperar. Los documentos de tipo distinto a HTML se separaron en:
En lo que respecta a los documentos multimedios las figuras
y
7 muestran las distribuciones de los formatos de audio, video, imágenes
y documentos de texto que no son HTML, respectivamente.
Respecto a las páginas dinámicas indexadas, la figura
permite hacer una comparación de la evolución del uso de ciertos formatos
entre el 2001 y el 2002. De estos gráficos se puede apreciar un aumento
considerable en el uso de PHP entre el año 2001 y 2002 convirtiéndose
en el tipo más utilizado en la Web Chilena seguido de cerca por ASP
En el año 2001 se hizo un análisis acerca del contenido de los documentos
que de los sitios con sólo una página. Los resultados encontrados
se muestran en la tabla
|
Los contenidos de estos sitios son los siguientes:
En esta sección se describen elementos de la Web Chilena basados en las características topológicas de ésta, es decir, en las páginas, sitios o dominios y la relación de links entre ellos. Al referirnos a links entre sitios (dominios), estamos diciendo que existe al menos un link entre una página de un sitio (dominio) y una página del otro sitio (dominio).
Las características topológicas a nivel de Web son una fuente muy importante de información respecto a ésta. Tanto así que la ubicación topológica de las páginas se ha considerado en Google como la primordial característica de jerarquización, reemplazando a las más clásicas basadas en distancia vectorial entre documento y consulta.
Los dominios más populares entre administradores de sitios Web son
los que se muestran en la tabla
,
la cantidad de referencias mencionada es a nivel de dominio.
| ||||||||||||||||||||||||||||||||||||||||||||||||
La tabla
muestra los sitios
más referenciados a nivel de sitio.
| ||||||||||||||||||||||||||||||||||||||||||||||||
.
|
Al analizar la Web como un grafo, es posible aplicar toda la teoría sobre éstos que existe en las matemáticas. Una definición común en la teoría de grafos es la de componente fuertemente conexa; ésta se aplica a un grafo dirigido, donde una componente fuertemente conexa es un subconjunto de los nodos del grafo donde existe un camino entre cualquier par de ellos. Una componente fuertemente conexa en la Web es un conjunto de sitios entre los cuales existen caminos a través de links entre cualquier par de sitios. Las componentes fuertemente conexas en la Web con más de un sitio no son muchas. Llamaremos a la más grande de ellas la componente conexa principal, que además tiende a ser mucho más grande que las que le siguen. En [1] se hace la siguiente división de la Web, según su relación con la componente fuertemente conexa principal:
Al observar la tabla
lo que más llama
la atención es el gran tamaño de ISLANDS con respecto al resto de
las componentes. ISLANDS esta compuesto por cerca de un 50% de los
sitios de la Web Chilena. Los sitios en esta componente tienden a
ser siempre los más nuevos, lo que indica que es ahí donde se ha producido
gran parte del crecimiento de la Web.
|
Desde el inicio de la Web los sitios han cambiado su ubicación
dentro de ésta. La pregunta que se desea responder es dónde están
hoy los sitios de las componentes de hace un año. A continuación se
presentan algunas cifras globales de las componentes de la Web Chilena,
a nivel de sitios y de dominios, en las tablas
y
respectivamente.
|
|
En la tablas
y
se analiza el movimiento en las componentes a nivel de sitios y en
la tabla
se hace el mismo análisis a
nivel de dominios. Hay dos lecturas posibles de las tablas
y
Al ver estas tablas por columnas
se puede observar de qué componente vienen los sitios de las
componentes actuales. Al estudiarlas por filas vemos dónde están
hoy los sitios de las componentes hace un año. La última columna
y fila representan los sitios que ya no existen (GONE) y
los sitios nuevos (NEW), respectivamente.
Es interesante notar que OUT y MAIN son componentes altamente estables, ya que cerca de un 25% de los sitios que actualmente se encuentran en ellas estaban ahi el año anterior. También se destaca el hecho de que MAIN se compone en un 20% por sitios que antes estaban en OUT. Sin duda se confirma el hecho que ISLANDS es la componente que más ha crecido y que a la vez es la componente que más sitios ha perdido.
|
|
|
En las figuras
y
se presenta de forma esquemática como ha sido el movimiento a nivel
de sitios y de dominios entre las diferentes componentes de la Web
Chilena. El movimiento de los sitios y dominios entre las diferentes
componentes, de un año a otro, puede verse reflejado en las partes
de las componentes que se representan en un color más claro al original.
En estos esquemas se pueden ver reflejados en forma aproximada todos
los datos mencionados en las tablas
,
,
,
y
En el presente capítulo se describe el análisis a las consultas realizadas por los usuarios del buscador de TodoCL. Se muestran ciertas distribuciones de éstas.
Se observaron las frecuencias de consulta de las palabras en el buscador
TodoCL. Las palabras más consultadas en el buscador TodoCL, en los
períodos de agosto y septiembre del 2001, son las de la tabla
En esta tabla se descartaron artículos, preposiciones y otras palabras
funcionales.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A continuación haremos un análisis de la frecuencia con que son consultadas
las palabras por los usuarios de TodoCL. En la siguiente figura se
pueden apreciar las frecuencias con que son consultadas las palabras
para los años 2001 y 2002. La figura
muestra la frecuencia de las palabras consultadas en el año 2002.
Se observa que siguen una distribución tipo Zipf de parámetro
1.14 lo que es muy similar a lo observado elaño 2001, donde la frecuencia
de las consultas seguía una Zipf de parámetro 1.4.
Las palabras consultadas y las que aparecen en las páginas siguen
distribuciones similares. Surge la pregunta sobre su relación. En
el gráfico de la figura
se ve la relación
entre documentos relevantes y cantidad de consultas de las palabras.
Lo más común son palabras con pocos documentos relevantes y pocas
consultas. Hay palabras con pocos documentos y muchas consultas, ejemplos
de esto son Hentai, México, DivX, Carátulas, y Melodías. Las palabras
con muchos documentos relevantes y pocas consultas son, en general,
preposiciones, pronombres y artículos como
,
,
,
etc. Las palabras con mucho contenido y muchas consultas son, en general,
como
,
,
y
; pero aparece
de forma interesante
como palabra muy consultada y que aparece
en muchas páginas. Las palabras poco consultadas y con poco contenido
no son interesantes, ya que son muchas. La relación de las palabras
consultadas y las del contenido no es clara.
Al utilizar un buscador, es posible alterar los parámetros bajo los cuales se realizará la consulta. Los parámetros existentes en los buscadores estudiados, en el modo de búsqueda simple, son:
se pueden ver los niveles de utilización
de cada opción en TodoCL. Los valores más altos, en ambos casos, son
los valores por defecto. Esto le da una tremenda importancia a las
opciones por defecto, ya que su elección será determinante, en una
gran cantidad de casos, para el buen resultado de las consultas.
|
A partir de este estudio es posible concluir diversos aspectos interesantes de la evolución en el tiempo de la Web Chilena. Desde el punto de vista de las cifras globales lo más destacable es que el número de páginas, sitios y dominios presentes se ha prácticamente duplicado año a año. Esto refleja el crecimiento acelerado de la Web en Chile. Sin embargo, es importante señalar que el 56% de los dominios y el 54% de los sitios tienen sólo una página. Manteniéndose relativamente constante la distribución que siguen las páginas en la Web. También se observa que en general son siempre los mismos dominios los que poseen más páginas, no así los sitios.
Al analizar los medios y formatos de la Web en la actualidad llama la atención la importancia que ha tomado PHP dentro de las páginas dinámicas desplazando a ASP del primer lugar de preferencias.
En el periodo 2001-2002 se observa de forma especial las características de la componente ISLANDS, ya que los sitios que pertenecen a esta componente son los mayores en número. Los sitios en ISLANDS tienden a ser los más nuevos, lo que deja en claro el gran crecimiento de la Web. Esta componente es la que más ha crecido y a la vez la que más sitios ha perdido. También es interesante notar que MAIN y OUT son componentes altamente estables, manteniendo constante un porcentaje importante de sus sitios.
En cuanto a las palabras más consultadas se puede apreciar que estas no han cambiado mucho entre el 2001 y 2002, incluso la distribución que ellas siguen es prácticamente la misma.
This document was generated using the LaTeX2HTML translator Version 2002 (1.62)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.