Kako ekstrahirati in shraniti slike iz datoteke PDF v Linuxu
Datoteke PDF lahko preprosto pretvorite v besedilo, ki ga je mogoče urejati v Linuxu z orodjem ukazne vrstice »pdftotext«. Če pa so v izvirni datoteki PDF kakršne koli slike, se te ne ekstrahirajo. Če želite ekstrahirati slike iz datoteke PDF, lahko uporabite drugo orodje ukazne vrstice, imenovano »pdfimages«.
OPOMBA: Ko v tem članku rečemo, da vnesete nekaj in obstajajo narekovaji okoli besedila, NE vnesite narekovajev, če ne določimo drugače.
Orodje »pdfimages« je del paketa poppler-utils. Če želite preveriti, ali je nameščen na vašem sistemu, ga po potrebi namestite s koraki, opisanimi v tem članku.
Za kopiranje slik iz datoteke PDF z uporabo datotek pdfimages pritisnite “Ctrl + Alt + T”, da odprete okno Terminal. V poziv vnesite naslednji ukaz.
pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenti / ExtractedImages / image
OPOMBA: Za vse ukaze, prikazane v tem članku, zamenjajte prvo pot v ukazu in ime datoteke PDF na pot in ime datoteke za izvirno datoteko PDF. Druga pot naj bo pot do korenske mape, v katero želite shraniti izpisane slike. Beseda »slika« na koncu druge poti predstavlja tisto, kar želite, da vnašate ime datoteke z. Imena datotek se samodejno oštevilčijo (000, 001, 002, 003 itd.). Če želite dodati besedilo na začetek vsake slike, vnesite to besedilo na koncu druge poti. V našem primeru se vsako ime datoteke začne s sliko, kot je image-001.ppm, image-002.ppm itd. Med besedilom, ki ga določite, in številom.
Privzeti format slike je PPM (prenosna slikovna točka) za ne-monokromne slike ali PBM (prenosna bitna slika) za enobarvne slike. Ti formati so zasnovani tako, da jih je mogoče enostavno izmenjati med platformami.
OPOMBA: Za vsako sliko v datoteki PDF lahko dobite dve slikovni datoteki. Druga slika za vsako sliko je prazna, tako da boste lahko sliko, ki vsebuje slike iz datoteke, povedali s sličico datoteke v upravitelju datotek.
Za ustvarjanje slikovnih datotek .jpg dodajte ukaz »-j«, kot je prikazano spodaj.
pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenti / ExtractedImages / image
OPOMBA: Privzeti izhod lahko spremenite tudi v datoteko PNG z možnostjo »-png« ali s TIFF z možnostjo »-tiff«..
Glavna slikovna datoteka za vsako sliko se shrani kot .jpg datoteka. Druga prazna slika je še vedno datoteka .ppm ali .pbm.
Če želite pretvoriti slike samo za določeno stran in po njej, uporabite možnost »-f« s številko, ki označuje prvo stran za pretvorbo, kot je prikazano v spodnjem primeru:.
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenti / ExtractedImages / image
OPOMBA: Možnost »-j« smo združili z možnostjo »-f«, tako da bi dobili sliko .jpg in naredili isto z možnostjo »-l«, ki je navedena spodaj,.
Če želite pretvoriti vse slike pred in na določeno stran, uporabite možnost »-l« (mala črka »L«, ne številka »1«) s številko, ki označuje zadnjo stran za pretvorbo, kot je prikazano spodaj.
pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenti / ExtractedImages / image
OPOMBA: Možnosti »-f« in »-l« lahko uporabite za pretvorbo slik na določenem območju strani v sredini dokumenta.
Če je v datoteki PDF geslo lastnika, uporabite možnost »-opw« in geslo v enojnih narekovajih, kot je prikazano spodaj. Če je geslo v datoteki PDF uporabniško geslo, namesto tega uporabite možnost »-upw« z geslom.
OPOMBA: Preverite, ali so v ukazu gesla enojni narekovaji.
pdfimages -opw 'password' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenti / ExtractedImages / image
Za več informacij o uporabi ukaza pdfimages vnesite “pdfimages” na poziv v oknu Terminal in pritisnite “Enter”. Uporaba ukazov se prikaže s seznamom razpoložljivih možnosti za uporabo v ukazu.