miércoles, 1 de diciembre de 2010

Motores de busquedas

hablare un poco de como funcionan los motores de busqueda, aunqe es un poco complejo,

Primeramente es una gigantesca base de datos que tienen informacion acerca de las paginas web que contiene la internet. El buscador mas poderoso de la web (Google) tiene 3,000,000,000 Sitios Web y ya mencione cuales son las diferencias entre una pagina web y un sitio. cuando ingresas una palabra o cualquier frase el algoritmo de google te regresara los resultados segun su algoritmo y como ustedes saben google nunca miente!!.

Pero como consiguen toda esa informacion?
todo esto se logra gracias a "spiders" aranias que son las que recopilan toda la informacion de sitios web, estos recopilan la informacion y despues siguen los links que tienen los mismo sitios web, estas aranias rastrean toda la web casi continuamente para recoger informacion de nuevas paginas web o para actualizar las que ya existian para asi mantenerse al dia. Estos datos que las aranias consiguen son tratados diferente dependiendo del motor de busqueda al cual ingresaste lo que querias, unas tienen un "peso" y la forma de como se integra a la web, de esta manera determinan como ira ordenado en la lista de resultados, estas paginas de resultados se les llamada SERPS (Search Engine Result PageS).

La mayoria de los motores hacen sus actualizaciones 1 vez por mes para asi mostrar los resultados mas actuales, pero si en dado caso pusieras una pagina web y las aranias ya hayan terminado, tendras que esperar un mes hasta que las aranias lleven la informacion de el sitio web y asi ingresarlo a la gran base de datos pero necesitarias 2 o mas chequeos a tu sitio antes de que tu pagina se establesta bien en los resultados.

Despues de que las aranias dejen su informacion existe un indexador que hace que esa informacion sea estructurada de una forma manejable y "pequenia" a lo que se le llama indice y despues de eso un buscador que sea el que recupere las paginas de del indice basado en lo que pida el usuario y todo esto es recursivo y graficado seria algo cmo esto:




asi enlistado:
1.Revisar la lista de URLs por visitar y escoger una
2.Visitar esa dirección
3.Transformarla para incorporarla a la colección, elimina etiquetas e imágenes de la página, convierte documentos Word o PDF a texto simple, recorta si es demasiado grande
4.Extraer los links de la página, y si alguno no está en la lista, agregarlo
5.Volver al primer paso

y como ya explique el indexador grafico seria asi:




ya en el buscador el usuario pone la palabra a buscar y el buscador buscara en la lista y mandara paginas pero si el usuario pide una frase el buscador separara las palabras y las buscara en paginas diferente luego anexara los documentos y buscara la interseccion de paginas etc.
el buscador buscara en los documentos la palabra buscada y la que mas se repite esa es la pagina, eso les ha funcionado por varios anios pero esto hablando de otros motores de busqueda, google utiliza otro algoritmo.

fuentes:

http://www.masadelante.com/faqs/como-funciona-motores-de-busqueda
http://www.wikilearning.com/articulo/busqueda_en_la_web-como_funciona_un_buscador/20845-2

1 comentario: