Extracción y Recuperación de la Información I

Universidad Carlos III de Madrid

Patrones Léxicos.

Los patrones de tipo léxico son las palabras que utilicemos para la busqueda de información. Estas palabras se analizan por si solas y de forma independiente al contexto.

Incluso a nivel básico como es la palabra hay problemas para su correcto procesado. Los más comunes, y en algún caso corregidos automaticamente por los buscadores son:

 

  • Puntuación:  URSS vs U.R.S.S
  • Capitalización: Madrid vs MADRID
  • Espaciamiento: J.S. ELCANO vs J. S. ELCANO
  • Abreviaciones y acrónimos: "extracción de información" vs EI
  • Omisión de caracteres: Madness vs Madnes
  • Adición de caracteres: Madness vs Maddness
  • Substituciones: Day vs Dai
  • Cambio de orden: daily vs dialy  

 

Las formas de corregir estos errores son para la capitalización y la puntuación con el uso de normalización. Y para las abreviaciones y acrónimos se suelen utilizar tablas de traducción.

 

Con los problemas de cambio de caracteres se utilizan algoritmos de cálculo de coste variable llamado "Distancia de cambiar de una unidad de información A a otra B" que queda de definida de la siguiente forma:

 

D(A,B) = min [ S + I + B]

 

Donde S es el número de caracteres sustituidos, I es el número de inserciones realizadas, y B se refiere al número de letras que han sido eliminadas.

 

De esta forma se pueden utilizar patrones léxicos para la extracción y recuperación de palabras que aunque no se deletrean igual, léxicamente se refieren a la misma información.

 

 

Página creada por Raúl Olías Beltrán

Última Actualización: 29-03-2007

Extracción de Información, valida XHTML 1.0 Extracción de Información, valida css Extracción de Información, WAI - AA Nivel de conformidad Extracción de Información TAW. Nivel doble A. WCAG 1.0 WAI Extracción de Información, Cynthia Tested