Extracción y Recuperación de la Información I

Universidad Carlos III de Madrid

Patrones Sintácticos.

 

El patrón sintáctico más usado en la recuperación de la información es el llamado part-of-speech (POS) de una palabra, es decir, las partes del habla que son: sustantivo, verbo, artículo, adjetivo, etc.

 

En la recuperación de información se realiza un marcaje de "POS" cuando se asignan estas categorías gramaticales a cada palabra dada, es decir, cuando se indica la función de cada palabra en el contexto específico de la oración. Este marcaje se hace considerando características morfológicas y sintácticas del lenguaje, esto es importante ya que los nombres generalmente designan personas, lugares, cosas, y otros conceptos físicos y abstractos, los verbos suelen utilizarse para designar acciones y procesos y los adjetivos describen propiedades y estados de los nombres.

 

En este proceso de reconocimiento de patrones, lo que se obtiene al final es un etiquetado de la siguiente forma:

 

POS  Variación morfológica Etiquetado
Nombre singular NN
plural NNS
propio singular NNP
propio plural NNPS
Adjetivo normal JJ
comparativo JJR
superlativo JJS

 

El resto según la categorización de DeRose (1988) [1]: AT=artículo, VB=verbo, RB=adverbio, VBD="past-tense-verb", PPO=pronombre personal y PP$=pronombre posesivo

 

Este etiquetado seguiría con cada unidad sintáctica, especialmente con el verbo, en el que se tendría que tener en cuenta las terminaciones verbales para saber a que modo, tiempo, persona y voz, corresponde una unidad de información.

 

Referencia [1] DeRose, Stephen J. 1988. Grammatical category disambiguation by statistical optimization. Computational Linguistics 14.1: 31-39.

Página creada por Raúl Olías Beltrán

Última Actualización: 29-03-2007

Extracción de Información, valida XHTML 1.0 Extracción de Información, valida css Extracción de Información, WAI - AA Nivel de conformidad Extracción de Información TAW. Nivel doble A. WCAG 1.0 WAI Extracción de Información, Cynthia Tested