La Extracción de la información es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.
La importancia de este tipo de recuperación de la información viene dado por la creciente cantidad de información no estructurada (por ejemplo, sin metadatos asociados) existente en, por ejemplo, la Internet. Todo este conocimiento podría hacer más accesible si se transformara a una forma relacional o fuese marcado utilizando etiquetas (tags) de XML.
Un ejemplo de extracción de la información sería la extracción de instancias de fusiones corporativas del tipo (compañia1, compañia2, fecha). De esta forma, de una noticia del tipo: "Ayer, Google compró la creciente compañía Facebook", el sistema sería capaz de razonar lógicamente y establecer inferencias basadas en el contenido lógico de los datos de entrada de tal forma que estableciera que "compañia1" es "Google", "compañia2" es "Facebook" y "fecha" es "Ayer".
Tras esta definición a modo de introducción, podemos profundizar en esta disciplina en los siguientes sub apartados:







