En general todos los sistemas de recuperación de información (se presenten en
forma de lenguaje de comandos, por menús o en formularios) permiten realizar
diferentes modalidades de búsqueda:
Búsqueda directa: se teclea directamente una o varias palabras en el
espacio reservado para ello por el sistema de interrogación en la base de datos.
Pueden distinguirse a su vez dos tipos dentro de esta modalidad:
- Interrogación en texto libre: el usuario realiza su consulta sin tener
en cuenta la estructura de campos de los registros de la base de datos.
Generalmente, el sistema busca el término o los términos solicitados en
la totalidad de los campos de la base. En algunas bases de datos esta
búsqueda se realiza solamente en determinados campos, aquellos que el
administrador de la misma ha establecido.
- Interrogación en texto libre: el usuario realiza su consulta sin tener
en cuenta la estructura de campos de los registros de la base de datos.
Generalmente, el sistema busca el término o los términos solicitados en
la totalidad de los campos de la base. En algunas bases de datos esta
búsqueda se realiza solamente en determinados campos, aquellos que el
administrador de la misma ha establecido.
- Interrogación en campos individuales: el usuario realiza su consulta
directamente sobre el campo o campos que ha seleccionado
previamente: autor, revista, descriptores, etc...
- Búsqueda a través de índices: en vez de teclear un término, el usuario
visualiza un diccionario o índice alfabético de las entradas de todos los campos o de
uno concreto (índice de autores, descriptores,...) y selecciona las más adecuados a
su búsqueda. El proceso puede parecer más lento pero es más seguro, ya que la
búsqueda se adapta mejor al contenido real de los registros de una base de datos.
En esta posibilidad hay que tener en cuenta si el sistema trabaja con uno o varios
índices y cómo se realizan los mismos:
- Índices por palabras: incluyen solamente unitérminos (conceptos
expresados en una sola palabra). Se elaboran, por ejemplo, con todas las
palabras extraídas del título o del resumen de los documentos. La
mayoría de los productores de bases de datos establecen una lista de
“palabras vacías” (preposiciones, artículos,...) para reducir el tamaño de
estos índices. Los términos presentes en esta lista de palabras vacías no
serán consultables.
- Índices por frase: incluyen entradas compuestas por varias palabras. Por
ejemplo: apellidos y nombre del autor, descriptores o encabezamientos
de materias,...
- Búsqueda jerarquizada: la interrogación se realiza a través de una
estructura jerárquica. Es decir, a partir de un concepto genérico se pueden
localizar, no sólo los registros en los que aparece dicho término, sino además todos
aquellos en los que figure algún concepto más específico de su campo semántico.
Está opción de búsqueda sólo será posible en aquellos sistemas de información que
cuenten con campos codificados o que utilicen lenguajes estructurados
jerárquicamente en la clasificación o en los descriptores.
- Búsqueda a través de códigos: en determinados campos de algunas
bases de datos la interrogación no se realiza a través de un texto sino a través de
códigos numéricos o alfanuméricos. Pueden ser campos codificados la clasificación,
el idioma, la tipología documental,...
HERRAMIENTAS DE BÚSQUEDA
Para realizar una búsqueda compleja en una base de datos es preciso utilizar un
número elevado de conceptos. Hay que precisar los diferentes aspectos temáticos
implicados y además contar con la posibilidad de que cada uno de ellos pueda estar
expresado de diferentes maneras (sinónimos, temas relacionados,...). Los sistemas
de recuperación de información cuentan con diferentes herramientas para construir
una estrategia y relacionar de forma clara los diferentes términos utilizados en una
búsqueda.
- Operadores lógicos o booleanos. Permiten la combinación de conceptos
en una misma búsqueda. Los sistemas de recuperación utilizan las operaciones
propias de la teoría de conjuntos o álgebra de Boole:
- Suma o unión (A or B, A o B): selecciona todos los registros en los que
aparece tanto A como B como ambos a la vez.
- Resta o negación (A and not B, A no B): selecciona sólo los registros en los
que se encuentre el término A sin estar acompañado del término B. Es una
operación que debe realizarse con la máxima precaución para no dejar de
seleccionar documentos que sí pueden ser de interés para la consulta
deseada.
- Intersección (A and B, A y B): selecciona solamente los registros en los que
aparece simultáneamente los conceptos A y B.
- Algunos sistemas permiten también la operación contraria: A xor B:
registros donde está A o B pero no A y B simultáneamente.
- Operadores sintácticos, de proximidad o de adyacencia.
Frecuentemente el operador de intersección (and) no es suficiente para precisar
una búsqueda. Por ejemplo, si se desea localizar registros que traten sobre el
escritor ‘Juan Madrid’ la expresión ‘Juan and Madrid’ dará como resultado todas las
referencias en las cuáles aparecen ambos términos pero no necesariamente
relativos a este autor. Para mejorar la pertinencia de la búsqueda, los sistemas de
recuperación de información incorporan frecuentemente la posibilidad de combinar
conceptos relacionados entre sí por criterios sintácticos: presencia en la misma
frase, el mismo párrafo o el mismo campo, aparición en determinado orden o con
una separación mínima de palabras entre ellas, etc.
Por ejemplo, si se selecciona el operador de búsqueda por frase y se teclea la
expresión ‘Juan Madrid’ el sistema seleccionará sólo aquellos documentos en los
que estas dos palabras aparezcan juntas y en este orden. Este tipo de operadores
son especialmente necesarios cuando se interroga sobre campos con textos
extensos (resumen o incluso el texto del documento completo)
- Truncado: permite la interrogación conjunta de conceptos que comparten
una misma raíz. Mediante un signo de truncado (*, ? o $, según el programa) los
sistemas de recuperación permiten realizar una búsqueda conjunta de todas las
palabras de un índice que comparten un mismo comienzo o raíz.
- Operadores numéricos y de rango. En campos numéricos el sistema de
recuperación puede permitir la búsqueda de todos los valores mayores o menores a
una cifra o comprendidos en un intervalo determinado.
Por ejemplo, si se desea localizar solamente documentos publicados a partir de
1995, habrá que seleccionar en el campo año de publicación los valores mayores
que esta cifra o bien utilizar la expresión 1995:1999 si se prefiere acotar un
periodo.
La existencia de esta opción en los sistemas de recuperación facilita la consulta en
los campos de carácter numérico (número de registro, año de publicación, códigos
de clasificación, periodo histórico,...)
- Acotar o limitar conjuntos. La interrogación se ejecuta sólo sobre los
registros resultado de una búsqueda anterior, en lugar de sobre toda la base de
datos.
No hay comentarios:
Publicar un comentario