Los patrones de tipo léxico son las palabras que utilicemos para la busqueda de información. Estas palabras se analizan por si solas y de forma independiente al contexto.
Incluso a nivel básico como es la palabra hay problemas para su correcto procesado. Los más comunes, y en algún caso corregidos automaticamente por los buscadores son:
Las formas de corregir estos errores son para la capitalización y la puntuación con el uso de normalización. Y para las abreviaciones y acrónimos se suelen utilizar tablas de traducción.
Con los problemas de cambio de caracteres se utilizan algoritmos de cálculo de coste variable llamado "Distancia de cambiar de una unidad de información A a otra B" que queda de definida de la siguiente forma:
D(A,B) = min [ S + I + B]
Donde S es el número de caracteres sustituidos, I es el número de inserciones realizadas, y B se refiere al número de letras que han sido eliminadas.
De esta forma se pueden utilizar patrones léxicos para la extracción y recuperación de palabras que aunque no se deletrean igual, léxicamente se refieren a la misma información.