Extracción de información de documentos PDF para  su uso en la indización automática de e-books

Gil-Leiva, Isidoro; Spotti Lopes Fujita, Mariângela; Marques Redigolo, Franciele; Ferreira Saran, Jordan

Por favor, use este identificador para citar o enlazar este ítem: https://doi.org/10.1590/2318-0889202234e210069

RefMan EndNote BibTex RefWorks Excel CSV PDF Mendeley

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Gil-Leiva, Isidoro	-
dc.contributor.author	Spotti Lopes Fujita, Mariângela	-
dc.contributor.author	Marques Redigolo, Franciele	-
dc.contributor.author	Ferreira Saran, Jordan	-
dc.contributor.other	Facultades, Departamentos, Servicios y Escuelas::Departamentos de la UMU::Información y Documentación	es
dc.date.accessioned	2023-12-14T08:56:29Z	-
dc.date.available	2023-12-14T08:56:29Z	-
dc.date.issued	2022	-
dc.identifier.citation	TransInformação, Campinas, 34:e210069, 2022	es
dc.identifier.issn	2318-0889	-
dc.identifier.uri	http://hdl.handle.net/10201/136641	-
dc.description	© 2022. This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International (CC BY 4.0) http://creativecommons.org/licenses/by /4.0/ This document is the Accepted version of a Published Work that appeared in final form in TransInformação. To access the final edited and published work see https://doi.org/10.1590/2318-0889202234e210069	es
dc.description.abstract	El número de libros electrónicos que ingresan en las bibliotecas en formato PDF cada día es mayor, complicando y haciendo casi inviables algunos procesos realizados tradicionalmente de forma manual por los bibliotecarios, como es la asignación de materias. En este contexto, se hace necesario el diseño y desarrollo de aplicaciones que asistan a los bibliotecarios. Teniendo esto en consideración, presentamos en este trabajo la evaluación de herramientas de extracción de información de libros en PDF que podrían usarse posteriormente como materia prima para un sistema de indización automática. Para ello, realizamos una primera evaluación de cinco softwares (PDFMiner.six, PDFAct, PDF-extract, PDFExtract y Grobib) y, posteriormente, como PDFAct consiguió el mejor rendimiento, hicimos una segunda evaluación para averiguar su capacidad para identificar y extraer informaciones de los libros, tales como títulos, índices, secciones, títulos de tablas y gráficos y referencias bibliográficas, informaciones relevantes para cualquier sistema de indización. Se concluye que ninguna de las herramientas evaluadas extrae adecuadamente las diferentes partes de libros en PDF, si bien, PDFAct ha logrado un rendimiento superior al del resto.	es
dc.description.abstract	The number of electronic books that enter libraries in PDF format is greater every day. Complicating and making it almost unfeasible for some processes, traditionally carried out manually by librarians such as the assignment of subjects, to be done. In this context, it is necessary to design and develop applications that assist librarians. Taking this into consideration, we present in this work the evaluation of tools for extracting information from books in PDF format that could be used later as raw material for an automatic indexing system. To do this, we carried out a first evaluation of five software (PDFMiner.six, PDFAct, PDF-extract, PDFExtract, and Grobib), later, as PDFAct achieved the best performance, we did a second evaluation to find out their ability to identify and extract information from the books such as titles, indexes, sections, titles of tables and graphs and bibliographic reference which are relevant information for any indexing	es
dc.format	application/pdf	es
dc.format.extent	11	es
dc.language	spa	es
dc.publisher	Facultad de Biblioteconomía, Centro de Ciencias Humanas y Sociales Aplicadas de la Pontifícia Universidade Católica de Campinas	es
dc.relation	Sin financiación externa a la Universidad	es
dc.rights	info:eu-repo/semantics/openAccess	es
dc.rights	Atribución 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	*
dc.subject	Evaluación de software	es
dc.subject	Grobib	es
dc.subject	Indización automática	es
dc.subject	PDFMiner.six	es
dc.subject	PDFAct	es
dc.subject	PDF-extract	es
dc.subject	PDFExtract	es
dc.subject.other	CDU::3 - Ciencias sociales	es
dc.title	Extracción de información de documentos PDF para su uso en la indización automática de e-books	es
dc.title.alternative	Extracting information from PDF documents for use in automatic indexing of e-books	es
dc.type	info:eu-repo/semantics/article	es
dc.identifier.doi	https://doi.org/10.1590/2318-0889202234e210069	-
Aparece en las colecciones:	Artículos: Información y Documentación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Leiva Fujita Redigolo Saran Transinformaçao 2022.pdf		605,89 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem Mostrar el registro PREMIS del ítem Estadísticas

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons