Како могу да копирам текст из ПДФ-а док чувам форматирање?
ПДФ, свеприсутни формат документа, одличан је за дељење докумената уз очување фонтова, слика и генералног изгледа на свим платформама. Постоји ли, међутим, једноставан начин да се сачува то форматирање приликом копирања и лијепљења текста из документа?
Данашња сесија питања и одговора долази нам захваљујући СуперУсер-у - подјела Стацк Екцханге-а, груписане од стране заједнице веб-локација за питања и одговоре.
Питање
Читач СуперУсер Цолен тражи начин да издвоји текст из ПДФ-ова, а истовремено задржи обликовање:
Када копирам текст из ПДФ датотеке и у уређивач текста, завршава се на разне начине. Форматирање као што је подебљано и курзивно је изгубљено; преломи меких линија унутар одломка текста се претварају у паузе за тврде линије; цртице које разбијају ријеч преко двије линије су сачуване чак и када не би требале бити; и једноструки и двоструки наводници су замењени? знакови.
У идеалном случају, желео бих да могу да копирам текст из ПДФ-а и да форматирање буде конвертовано у ХТМЛ кодове, „паметни цитати“ претворени у „и“ и да су преломи редова извршени исправно. Постоји ли начин да се то уради?
Да ли постоји једноставан и брз начин за Цолен (и нас остале) да узме текст без жртвовања форматирања?
Одговор
Доприносодавац СуперУсер Фрабјоус нуди решење комбиновано са великом дозом опреза:
Прво, морате разумети шта је ПДФ. ПДФ-ови су дизајнирани тако да опонашају штампану страницу, а дизајнирани су само као излазни формат, а не као улазни формат. ПДФ је у основи мапа која садржи тачну локацију знакова (појединачних слова или интерпункција, итд.) или слика. У већини случајева, ПДФ не чува чак ни информације о томе где се једна реч завршава, а друга почиње, а још мање ствари као што су меке паузе или тешке паузе за завршетке пасуса.
(Неколико скорашњих ПДФ-ова чувају неке информације о овим стварима, али то је нова технологија, а ви бисте имали среће да пронађете такве ПДФ-ове. Чак и да јесте, ваш ПДФ прегледач можда неће знати за њега.)
У сваком случају, на вашем је софтверу да имплементира неку врсту "вештачке интелигенције" да би извукао само из локација појединачних знакова шта је реч, шта је пасус, и тако даље. Различити софтвер ће то урадити боље од других, а зависиће и од тога како је направљен ПДФ. У сваком случају, никада не бисте требали очекивати савршене резултате. Имати излазни ПДФ није исто што и изворни документ. Много боље да покушате да то добијете ако можете.
Стандардно решење за ваш проблем је да користите Адобе Ацробат Профессионал (скуп, а не бесплатан читач) за конверзију ПДФ-а у ХТМЛ. Чак ни то неће постићи савршене резултате.
Постоји слободан софтвер који се може користити за издвајање текста из ПДФ-ова са неким форматом нетакнутим, али опет, не очекујте савршене резултате. Погледајте, на пример, калибар (који се може претворити у РТФ формат), пдфтохтмл / пдфрефлов или АбиВорд програм за обраду текста (са омогућеним свим увозним / извозним додатцима). Ту је и додатак за увоз ПДФ датотека за ОпенОффице.
Али немојте очекивати савршенство са било којим од ових резултата. Идеш против зрна овде. ПДФ једноставно није замишљен као улазни формат који се може уређивати.
Ако имате проблема да одлучите који алат да почнете, Калибар је прави документ швајцарског војног ножа. Можете га користити и за претварање ПДФ датотека за употребу на читачу е-књига и организовање библиотеке књига / докумената.
Имате ли нешто да додате објашњењу? Звучи у коментарима. Желите ли прочитати више одговора од других технолошки паметних Стацк Екцханге корисника? Погледајте цео дискусију овде.