Extracción y Recuperación de la Información mediante patrones Semánticos

Patrones Semánticos.

Los patrones de tipo semántico se basan en los metadatos semánticos que se añaden a la web para describir el contenido, el significado y la relación de los datos.

En la actualidad, la World Wide Web está basada principalmente en documentos escritos en HTML, un lenguaje de marcas que sirve para crear hipertexto en Internet. HTML es válido para adecuar el aspecto visual del documento e incluir objetos multimedia en el texto (imágenes, esquemas de diálogo, etc.). Pero da pocas posibilidades para categorizar los elementos que configuran el texto más allá de las típicas funciones estructurales, como sucede con otros lenguajes de maquetación (tipo LaTeX).

HTML permite mediante una herramienta de visualización (como un navegador o un agente de usuario) mostrar por ejemplo un catálogo de objetos en venta. El código HTML de este catálogo puede explicitar aspectos como "el título del documento" es Ferretería Acme; pero no hay forma de precisar dentro del código HTML si el producto M270660 es una "batería Acme", con un "precio de venta al público" de 200 €, o si es otro tipo de producto de consumo (es decir, es una batería eléctrica y no un instrumento musical, o un puchero). Lo único que HTML permite es alinear el precio en la misma fila que el nombre del producto. No hay forma de indicar "esto es un catálogo", "batería Acme" es una batería eléctrica, o "200 €" es el precio. Tampoco hay forma de relacionar ambos datos para describir un elemento específico en oposición a otros similares en el mismo catálogo.

La Web Semántica se ocupará de resolver estas deficiencias. Para ello dispone de tecnologías de descripción de los contenidos, como RDF y OWL, además de XML, el lenguaje de marcas diseñado para describir los datos. Estas tecnologías se combinan para aportar descripciones explícitas de los recursos de la Web (ya sean estos catálogos, formularios, mapas u otro tipo de objeto documental). De esta forma el contenido queda desvelado, como los datos de una base de datos accesibles por Web, o las etiquetas inmersas en el documento (normalmente en XHTML, o directamente en XML, y las instrucciones de visualización definidas en una hoja de estilos aparte). Estas etiquetas hacen posible a los gestores de contenidos interpretar los documentos y realizar procesos inteligentes de captura y tratamiento de información.

Extracción y Recuperación de la Información I

Universidad Carlos III de Madrid

Patrones Semánticos.

Enlaces