El patrón sintáctico más usado en la recuperación de la información es el llamado part-of-speech (POS) de una palabra, es decir, las partes del habla que son: sustantivo, verbo, artículo, adjetivo, etc.
En la recuperación de información se realiza un marcaje de "POS" cuando se asignan estas categorías gramaticales a cada palabra dada, es decir, cuando se indica la función de cada palabra en el contexto específico de la oración. Este marcaje se hace considerando características morfológicas y sintácticas del lenguaje, esto es importante ya que los nombres generalmente designan personas, lugares, cosas, y otros conceptos físicos y abstractos, los verbos suelen utilizarse para designar acciones y procesos y los adjetivos describen propiedades y estados de los nombres.
En este proceso de reconocimiento de patrones, lo que se obtiene al final es un etiquetado de la siguiente forma:
POS | Variación morfológica | Etiquetado |
Nombre | singular | NN |
plural | NNS | |
propio singular | NNP | |
propio plural | NNPS | |
Adjetivo | normal | JJ |
comparativo | JJR | |
superlativo | JJS |
El resto según la categorización de DeRose (1988) [1]: AT=artículo, VB=verbo, RB=adverbio, VBD="past-tense-verb", PPO=pronombre personal y PP$=pronombre posesivo
Este etiquetado seguiría con cada unidad sintáctica, especialmente con el verbo, en el que se tendría que tener en cuenta las terminaciones verbales para saber a que modo, tiempo, persona y voz, corresponde una unidad de información.
Referencia [1] DeRose, Stephen J. 1988. Grammatical category disambiguation by statistical optimization. Computational Linguistics 14.1: 31-39.