Domača » Prenos prostega programa » Izvlecite besedilo iz PDF in slikovnih datotek

    Izvlecite besedilo iz PDF in slikovnih datotek

    Imate dokument PDF, iz katerega želite izvleči vse besedilo? Kaj pa slikovne datoteke skeniranega dokumenta, ki ga želite pretvoriti v besedilo, ki ga je mogoče urejati? To so nekatera najpogostejša vprašanja, ki sem jih videl na delovnem mestu pri delu z datotekami.

    V tem članku bom govoril o več različnih načinih, kako lahko poskusite izvleči besedilo iz dokumenta PDF ali slike. Rezultati iskanja bodo odvisni od vrste in kakovosti besedila v dokumentu PDF ali slike. Tudi rezultati se bodo razlikovali glede na orodje, ki ga uporabljate, zato je najbolje, da preizkusite čim več spodnjih možnosti, da dobite najboljše rezultate.

    Izvlecite besedilo iz slike ali PDF

    Najpreprostejši in najhitrejši način za začetek je, da poskusite s spletno storitvijo za ekstrakcijo besedila PDF. Te so običajno brezplačne in vam lahko dajo točno tisto, kar iščete, ne da bi morali v računalnik namestiti karkoli. Evo dveh, ki sem jih uporabil z zelo dobrimi do odličnimi rezultati:

    ExtractPDF

    ExtractPDF je brezplačno orodje za zajemanje slik, besedil in pisav iz datoteke PDF. Edina omejitev je, da je največja velikost datoteke PDF 10 MB. To je malo majhno; zato, če imate večjo datoteko, poskusite nekatere od spodnjih metod. Izberite datoteko in kliknite Pošlji datoteko gumb. Rezultati so običajno zelo hitri in videli boste predogled besedila, ko kliknete na kartico Besedilo.

    Prav tako je lepo dodano ugodnost, da tudi izvleče slike iz datoteke PDF, če jih potrebujete! Na splošno, online orodje deluje odlično, vendar sem naletel na nekaj dokumentov PDF, ki mi dajejo smešno izhod. Besedilo je izpisano v redu, vendar bo iz vsakega razloga po vsaki besedi prišlo do prekinitve vrstice! Ni velik problem za kratko PDF datoteko, ampak zagotovo za datoteke z veliko besedila. Če se vam to zgodi, poskusite z naslednjim orodjem.

    Spletni OCR

    Spletni OCR ponavadi ponavadi dela za dokumente, ki niso pravilno pretvoriti z ExtractPDF, zato je dobra ideja, da poskusite obe storitvi, da vidite, kateri od njih vam daje boljši izhod. Spletni OCR ima tudi lepše funkcije, ki se lahko izkažejo kot uporabne za vsakogar, ki ima veliko datoteko PDF, ki potrebuje le pretvorbo besedila na nekaj straneh in ne celotnega dokumenta..

    Prva stvar, ki jo želite storiti, je, da ustvarite brezplačen račun. To je malce nadležno, če pa ne ustvarite brezplačnega računa, bo to samo delno pretvorilo vaš PDF, ne pa celotnega dokumenta. Poleg tega lahko namesto, da samo naložite samo 5 MB dokumenta, naložite do 100 MB na datoteko z računom.

    Najprej izberite jezik in nato izberite vrsto izhodnih formatov, ki jih želite pretvoriti. Imate nekaj možnosti in lahko izberete več kot eno, če želite. Spodaj Večstranski dokument, lahko izberete Številke strani in nato izberite le strani, ki jih želite pretvoriti. Nato izberete datoteko in kliknete Pretvorba!

    Po konverziji boste prišli v razdelek Dokumenti (če ste prijavljeni), kjer si lahko ogledate, koliko prostih strani imate na voljo in povezave za prenos pretvorjenih datotek. Zdi se, da imate samo 25 strani brezplačno na dan, tako da, če boste potrebovali več kot to, boste morali malo počakati ali kupiti več strani.

    Spletni OCR je odlično opravil pretvorbo mojih dokumentov PDF, ker je lahko ohranil dejansko postavitev besedila. V testu sem vzel Wordov dokument, ki je uporabljal naboje, različne velikosti pisav itd. In ga pretvoril v PDF. Potem sem uporabil Online OCR za pretvorbo nazaj v Word format in je bil približno 95% enak originalu. To je zelo impresivno zame.

    Poleg tega, če želite pretvoriti sliko v besedilo, lahko spletni OCR to počne prav tako enostavno, kot je pridobivanje besedila iz datotek PDF..

    Brezplačen spletni OCR

    Ker so govorili o sliki za besedilo OCR, naj omenim še eno dobro spletno stran, ki deluje zelo dobro na slikah. Free Online OCR je bil zelo dober in zelo natančen pri pridobivanju besedila iz testnih slik. Vzel sem nekaj fotografij iz iPhone-a na straneh iz knjig, pamfletov itd. Presenečen sem bil, kako dobro je bilo mogoče pretvoriti besedilo.

    Izberite datoteko in kliknite gumb Naloži. Na naslednjem zaslonu je nekaj možnosti in predogled slike. Lahko ga obrežete, če ne želite OCR celotne stvari. Nato kliknite gumb OCR in pretvorjeno besedilo bo prikazano pod predogledom slike. Prav tako nima nobenih omejitev, kar je res lepo.

    Poleg spletnih storitev sta dva brezplačna pretvornika PDF, ki jih želim omeniti, če potrebujete lokalno programsko opremo za izvajanje konverzij. S spletnimi storitvami boste vedno potrebovali internetno povezavo in to morda ne bo mogoče za vsakogar. Vendar pa sem opazil, da je kakovost konverzij iz brezplačnih programov bistveno slabša od tistih na spletnih straneh.

    A-PDF Text Extractor

    PDF Text Extractor je brezplačna programska oprema, ki precej dobro opravi pridobivanje besedila iz datotek PDF. Ko jo prenesete in namestite, kliknite gumb Odpri, da izberete datoteko PDF. Nato kliknite Ekstrahiraj besedilo za začetek postopka.

    Vprašal vas bo lokacijo za shranjevanje izhodne datoteke za besedilo in nato začel s pridobivanjem. Lahko kliknete tudi na Možnost gumb, ki vam omogoča, da izberete samo določene strani, ki jih želite izvleči, in vrsto ekstrakcije. Druga možnost je zanimiva, ker izvleče besedilo v različnih postavitvah in vredno je poskusiti vse tri, da vidim, kateri od njih vam daje najboljše rezultate..

    PDF2Text Pilot

    PDF2Text Pilot opravi ok delo pridobivanja besedila. Nima nobenih možnosti; samo dodajate datoteke ali mape, pretvarjate in upate na najboljše. Dobro je delovalo pri nekaterih dokumentih PDF, vendar je bilo za večino teh vprašanj veliko vprašanj.

    Kliknite Dodaj datoteke in nato kliknite Pretvorba. Ko je konverzija končana, kliknite Prebrskaj, da odprete datoteko. Če uporabljate ta program, boste prevoženi kilometri spremenili, zato ne pričakujte veliko.

    Prav tako je vredno omeniti, da če ste v poslovnem okolju ali lahko dobite roke na kopiji Adobe Acrobata z dela, potem lahko res dobite veliko boljše rezultate. Acrobat očitno ni brezplačen, vendar ima možnosti za pretvorbo PDF v Word, Excel in HTML. Prav tako najbolje opravlja delo pri ohranjanju strukture izvirnega dokumenta in pretvarjanju zapletenega besedila.