Kako lahko kopiram besedilo iz PDF-ja med ohranjanjem oblikovanja?

PDF, vseprisotna oblika dokumentov, je odlična za skupno rabo dokumentov, hkrati pa ohranja pisave, slike in splošno postavitev med različnimi platformami. Ali obstaja enostaven način za ohranitev tega zelo oblikovanja pri kopiranju in lepljenju besedila iz dokumenta?

Današnja seja vprašanj in odgovorov prihaja z namenom SuperUser-a, ki je del skupine Stack Exchange, ki temelji na skupnostih spletnih mest za vprašanja in odgovore.

Vprašanje

Bralnik SuperUser Colen išče način za izločanje besedila iz datotek PDF, pri čemer ohrani oblikovanje:

Ko kopiram besedilo iz datoteke PDF in v urejevalnik besedil, se uniči na več načinov. Oblikovanje, kot je krepko in ležeče, se izgubi; prelomi mehkih vrstic v odstavku besedila se pretvorijo v trdne prelome vrstic; črtice za prekinitev besede nad dvema vrsticama so ohranjene, tudi če ne bi smele biti; in enojni in dvojni narekovaji se nadomestijo z? znaki.

Idealno bi bilo, da bi lahko kopirali besedilo iz PDF-ja in da bi se oblikovanje pretvorilo v HTML-kode, »pametni narekovaji«, pretvorjeni v »in«, in prelomi vrstic. Ali obstaja način za to?

Ali obstaja Colen (in ostali) hiter in enostaven način za pridobivanje besedila brez žrtvovanja oblikovanja?

Odgovor

Prispevek uporabnika SuperUser Frabjous ponuja rešitev v kombinaciji z velikim odmerkom previdnosti:

Najprej morate razumeti, kaj je PDF. Datoteke PDF so zasnovane tako, da posnemajo natisnjeno stran in so oblikovane le kot izhodni format, ne pa v vhodni format. PDF je v bistvu zemljevid, ki vsebuje natančno lokacijo znakov (posameznih črk ali ločil itd.) ali slik. V večini primerov dokument PDF tudi ne shranjuje podatkov o tem, kje se konča ena beseda, druga pa se začne, še manj pa stvari, kot so mehki odmori in trdi prelomi za zaključke odstavkov.

(Nekaj nedavnih datotek PDF shranjuje nekaj informacij o teh stvareh, vendar je to nova tehnologija, zato boste imeli srečo, da boste našli take datoteke PDF. Tudi če ste to storili, pregledovalnik PDF morda o tem ne ve.)

Kakorkoli že, na vaši programski opremi je, da uveljavi nekakšno "umetno inteligenco", da izvleče zgolj iz lokacij posameznih znakov, kaj je beseda, kaj je odstavek in tako naprej. Različna programska oprema bo to naredila bolje od drugih, odvisno pa bo tudi od tega, kako je bil izdelan PDF. V nobenem primeru ne smete nikoli pričakovati odličnih rezultatov. Izhodna datoteka PDF ni isto kot imeti izvorni dokument. Bolje, da poskušate to doseči, če lahko.

Standardna rešitev za vašo vrsto težave je uporaba programa Adobe Acrobat Professional (drag, ne pa prostega bralca) za pretvorbo PDF v HTML. Tudi to ne bo dalo odličnih rezultatov.

Na voljo je brezplačna programska oprema, ki jo lahko uporabite za izločanje besedila iz dokumentov PDF, pri čemer so nekatere oblike nedotaknjene, vendar spet ne pričakujete odličnih rezultatov. Oglejte si, na primer, kalibar (ki lahko pretvori v format RTF), pdftohtml / pdfreflow ali urejevalnik besedil AbiWord (z vsemi uvoznimi / izvoznimi vtičniki). Obstaja tudi vtičnik za uvoz PDF za OpenOffice.

Toda prosim ne pričakuj popolnosti s temi rezultati. Tukaj greš proti zrnju. PDF ni namenjen le kot vhodni format za urejanje.

Če imate težave pri odločanju, katero orodje boste začeli, je Caliber pravi dokument švicarskega noža. Uporabite ga lahko tudi za pretvorbo PDF datotek za uporabo na vašem ebook readerju in organizacijo vaše ebook / knjižnice dokumentov.

Imate kaj dodati pojasnilu? Zvok izključen v komentarjih. Želite prebrati več odgovorov drugih uporabnikov tehnologije Stack Exchange? Oglejte si celotno nit razprave tukaj.