Los documentos a reconocer pueden ser de dos tipos: estructurados y no estructurados.
1.- Documento estructurado: en esta clase de documentos para extraer la información es necesario utilizar las tareas de reconocimiento de entidades, resolución de anáforas, reconocimiento del rol y reconocer relaciones. A continuación, y dependiendo del tipo de documento del que se trate, se encontrará un tipo u otro de información. Habitualmente, los datos que con mayor fiabilidad se pueden recuperar son aquellas entidades con nombre propio, como por ejemplo el de personas o lugares, siendo hechos o atributos relacionados con esos nombres propios recuperados con una fiabilidad mucho menor.
Esta clase de documentos son los más comunes y por tanto objetivo principal de los sistemas de extracción de la información.
2.- Documento no estructurado: en esta clase de documentos, si el documento de origen es ya de por sí un documento estructurado, resulta mucho más sencillo analizarlo para obtener las entidades y sus relaciones, siempre y cuando esté debidamente etiquetado. Normalmente el resultado de aplicar un sistema de extracción de información a cualquier texto es un documento estructurado del tipo XML