Екстракт текста из ПДФ-а и сликовних датотека
Имате ПДФ документ из којег желите да извучете сав текст? Шта је са сликовним датотекама скенираног документа које желите да конвертујете у текст за уређивање? Ово су неки од најчешћих проблема које сам видио на радном мјесту приликом рада с датотекама.
У овом чланку ћу говорити о неколико различитих начина на које можете покушати извући текст из ПДФ-а или слике. Ваши резултати вађења ће варирати у зависности од врсте и квалитета текста у ПДФ-у или слици. Такође, ваши резултати ће се разликовати у зависности од алата који користите, тако да је најбоље да испробате што је могуће више опција у наставку да бисте добили најбоље резултате.
Екстракт текста из слике или ПДФ-а
Најједноставнији и најбржи начин да почнете је да испробате онлине ПДФ екстрактор текста. Они су обично бесплатни и могу вам дати управо оно што тражите без потребе за инсталирањем било чега на вашем рачуналу. Ево два која сам користио са врло добрим до одличним резултатима:
ЕктрацтПДФ
ЕктрацтПДФ је бесплатан алат за хватање слика, текста и фонтова из ПДФ датотеке. Једино ограничење је да је максимална величина ПДФ датотеке 10 МБ. То је мало мало; па ако имате већу датотеку, испробајте неке од других метода у наставку. Изаберите датотеку и кликните на Сенд филе дугме. Резултати су обично веома брзи и требало би да видите преглед текста када кликнете на картицу Текст.
Такође је добра додатна предност и то што извлачи слике из ПДФ фајла, у случају да вам је то потребно! Све у свему, он-лине алат ради одлично, али сам налетио на неколико ПДФ докумената који ми дају смијешне резултате. Текст је извучен сасвим добро, али из неког разлога ће имати прекид линије након сваке ријечи! Није велики проблем за кратки ПДФ фајл, али свакако проблем за датотеке са много текста. Ако вам се то догоди, пробајте сљедећи алат.
Онлине ОЦР
Онлине ОЦР обично има тенденцију да ради за документе који нису правилно конвертовали са ЕктрацтПДФ, тако да је добра идеја да испробате обе услуге да бисте видели које од њих вам дају бољи излаз. Онлине ОЦР такође има неке лепше карактеристике које могу бити корисне за свакога са великим ПДФ фајлом који само треба да конвертује текст на неколико страница, а не читав документ..
Прва ствар коју желите да урадите је да креирате бесплатан налог. То је помало неугодно, али ако не креирате бесплатан налог, он ће само делимично конвертовати ваш ПДФ него цео документ. Исто тако, уместо да можете да пренесете само документ од 5 МБ, можете да пренесете до 100МБ по датотеци са налогом.
Прво, изаберите језик, а затим изаберите врсту излазних формата које желите за конвертовану датотеку. Имате неколико опција и можете одабрати више од једног ако желите. Испод Мултипаге доцумент, можете одабрати Бројеви страница а затим изаберите само странице које желите да конвертујете. Затим изаберите датотеку и кликните Цонверт!
Након конверзије, бићете доведени у одељак „Документи“ (ако сте се пријавили) где можете видети колико је слободних страница остало и које су везе за преузимање конвертованих датотека. Чини се да имате само 25 страница бесплатно дневно, тако да ако вам је потребно више од тога, морат ћете мало причекати или купити више страница.
Онлине ОЦР је изврсно обавио претварање мојих ПДФ-ова јер је био у стању да задржи стварни изглед текста. У мом тесту, узео сам Ворд доц који је користио метке, различите величине фонтова, итд. И конвертовао га у ПДФ. Онда сам користио Онлине ОЦР да га претворим у Ворд формат и био је око 95% исти као оригинал. То је прилично импресивно за мене.
Осим тога, ако желите да конвертујете слику у текст, онда Онлине ОЦР може то учинити једнако лако као и вађење текста из ПДФ датотека.
Фрее Онлине ОЦР
Пошто смо причали о ОЦР-у о слици, дозволите ми да споменем још један добар сајт који добро функционише на сликама. Фрее Онлине ОЦР је био врло добар и врло прецизан при вађењу текста са тестних слика. Направио сам пар фотографија са иПхоне-а на страницама из књига, памфлета, итд. И био сам изненађен колико је био у стању да конвертује текст.
Изаберите датотеку и кликните на дугме Уплоад. На следећем екрану постоји неколико опција и преглед слике. Можете га обрезати ако не желите да ОЦР читаву ствар. Затим кликните на дугме ОЦР и ваш конвертовани текст ће се појавити испод прегледа слике. Такође нема никаквих ограничења, што је заиста лепо.
Поред онлине услуга, постоје два бесплатна ПДФ конвертора која желим да поменем у случају да вам је потребан софтвер који ради локално на вашем рачунару да бисте извршили конверзије. Са онлине услугама увек ћете имати потребу за интернет везом и то можда неће бити могуће за све. Међутим, приметио сам да је квалитет конверзија из бесплатних програма знатно лошији од оних на сајтовима.
А-ПДФ Тект Ектрацтор
А-ПДФ Тект Ектрацтор је фрееваре који ради прилично добар посао издвајања текста из ПДФ датотека. Када га преузмете и инсталирате, кликните на дугме Отвори да бисте изабрали ПДФ датотеку. Затим кликните на дугме Екстракт текста да бисте започели процес.
Од вас ће се тражити локација за спремање излазне датотеке текста и онда ће почети вађење. Такође можете кликнути на Опција дугме, које вам омогућава да изаберете само одређене странице које треба издвојити и врсту екстракције. Друга опција је занимљива јер извлачи текст у различитим распоредима и вриједи покушати све три да би се видјело које вам даје најбољи излаз.
ПДФ2Тект Пилот
ПДФ2Тект Пилот ради ок посао извлачења текста. Нема опција; ви само додајете датотеке или фасцикле, конвертујете и надате се најбољем. Добро је функционисао на неким ПДФ-овима, али за већину њих било је много проблема.
Само кликните на дугме Додај датотеке, а затим кликните на дугме Цонверт. Када се конверзија заврши, кликните на Бровсе да бисте отворили датотеку. Километража ће варирати користећи овај програм, тако да не очекујте много.
Такође, вреди напоменути да ако сте у корпоративном окружењу или можете добити копију Адобе Ацробат-а са посла, онда можете заиста добити много боље резултате. Ацробат очигледно није бесплатан, али има опције за конверзију ПДФ-а у Ворд, Екцел и ХТМЛ формат. Он такође чини најбољи посао одржавања структуре оригиналног документа и претварања компликованог текста.