Unir e dividir arquivos PDF no Linux

Para quem precisa manipular arquivos PDF, seja para dividi-los em partes menores, seja para unir vários arquios, o Linux possui uma excelente ferramenta para esta tarefa: o PDFTK. Para instalá-lo, basta executar o seguinte comando, de acordo com a distribuição:

Ubuntu:

sudo apt-get install pdftk

Fedora:

sudo yum install pdftk

Como utilizar a ferramenta

Dividindo um PDF em vários arquivos

O pdftk é uma ferramenta de linha de comando. Particularmente, eu gosto muito, e não presumo que seja um problema para usuários que já fazem a opção pelo Linux. Vamos a um exemplo para dividir um arquivo PDF em vários arquivos, um por página. Basta executar o comando burst:

pdftk arquivo.pdf burst

Após executar este comando, poderá ver que surgiram vários arquivos PDF com o seguinte formato: pg_xxxx.pdf, onde o x representa o número da página extraída.

Selecionando apenas algumas páginas

pdftk arquivo.pdf cat 1-3 5-7 output algumaspaginas.pdf

Ao executar este comando, gerará um novo arquivo PDF chamado ‘algumaspaginas.pdf’ que conterá apenas aquelas páginas que foram selecionadas. Interessante quando quiser evitar acesso a determinadas páginas ou simplesmente deseja descartar algumas páginas, por um motivo qualquer, tornando o arquivo final menor.

Unindo vários arquivos num só

Já para fazer o caminho inverso, unir vários arquivos PDF num único arquivo, há como juntar todos os arquios de uma pasta, ou com um padrão de formato de nome, bem como listar quais são os arquivos que deseja unificar. O primeiro exemplo é a junção de 3 arquivos PDF num único arquivo.

pdftk arquivo1.pdf arquivo2.pdf arquio3.pdf cat output arquivo.pdf

Já neste exemplo vamos juntar todos os PDF’s de um diretório num único arquivo:

pdftk *.pdf cat output arquivo.pdf

Mas não é só isto

Na verdade, a ferramenta é extremamente poderosa. Na página de documentação há diversos exemplos do que pode ser feito utilizando o pdftk. Dentre algumas das possibilidades descritas nesta página, é possível excluir uma parte de um documento pdf, decriptar ou encriptar um arquivo ou girar as páginas, entre diversas outras funcionalidades. Certamente, há muito o que ser explorado nesta ferramenta.

Para maiores informações

Não deixe de visitar o site da PDFLabs, responsável pela criação da ferramenta PDFTK.

Ferramentas para converter PDF

Provavelmente você já teve um problema ao tentar buscar uma informação num documento PDF. Por se tratar de um formato “protegido”, até mesmo um simples texto corrido fica com uma formatação inadequada. Tabelas, então, nem se fala.

Infelizmente, não existe uma ferramenta que consiga “traduzir” adequadamente um PDF, mas existem algumas que pelo menos ajudam no serviço. Vou citar duas que utilizo muito, uma totalmente online, outra que funciona offline, mas que também se baseia em navegador.

Um site que uso para fazer a leitura dos dados no Diário Oficial é Cometdocs. Seu funcionamento é bastante simples: você faz o upload de um arquivo PDF, e você pede para traduzi-lo num outro formato de documento. São diversas as extensões possíveis: doc, xls, odt, ods, txt, rtf e outros. Funciona razoavelmente bem, mas há limite no número de arquivos enviados anonimamente. Você carrega um arquivo, ele converte e manda por e-mail  um link para download, que fica disponível por 24 horas. Para um usuário comum, creio que é o mais fácil e amigável.

Cometcdocs

Para volumes de dados maiores, eu utilizo o Tabula. Ele não é muito amigável para usuários iniciantes, porque requer um conhecimento básico sobre executar um servidor java web. Os benefícios do Tabula são que com ele você trabalha localmente, com melhor desempenho e sem limites de arquivos. Também é uma aplicação que lida muito bem com tabelas em PDF. Ele dá como opções copiar para a memória ou converter o texto para csv (um formato facilmente manipulável por vários tipos de aplicações, como Excel, Calc, Bancos de Dados, manipuladores de arquivo de texto etc). O problema é que se você já utilizar a porta 8080 para um outro tipo de aplicação pode ter problemas.

O princípio de funcionamento do Tabula é idêntico: ele abre uma aplicação web, na qual você faz o upload de um arquivo pdf. Entretanto, ele cria uma imagem do documento e você seleciona a área do texto que deseja copiar. Também é razoavelmente eficiente, mas tem limitações pela própria falta de padrão para se desenvolver documentos em PDF.

Tabula
Tabula

Infelizmente, não existe nenhuma solução milagrosa. O formato PDF é tremendamente complicado, e manipular dados nele sempre será complicado. Por isto, os mais diversos órgãos de transparência deveriam optar por outros tipos de formato, como CSV, XML ou JSON.