whycomputer.com >> Cunoașterea pe Internet >  >> Software-ul

Cum se extrage textul dintr-un document PDF

Poate fi foarte frustrant să încerci să extragi text dintr-un fișier PDF pentru a fi utilizat într-o altă aplicație. Nu este neobișnuit ca grafica să ajungă în cale sau pentru aspectul documentului pentru a face dificil transferul testului în propoziții semnificative. Deși nu este imposibil să se extragă textul cu o abordare copie și paste, poate fi consumatoare de timp și nu permite ca fișierul PDF să fie exportat ca format diferit. Există, totuși, câteva modalități de a extrage text dintr-un fișier PDF.

Extract text utilizând Acrobat Reader

Pasul 1
Deschideți fișierul în Acrobat Reader. În Windows, selectați "File -> Export Document to Text", denumiți documentul și salvați-l.

Pasul 2
Copiați textul pe un sistem de operare Mac sau Linux accesând meniul View și selectând " Continuu "sau" continuu-confruntat ". (Primul vă va furniza textul într-o singură coloană, în timp ce acesta din urmă va formata textul ca pagini alăturat.) Mergeți la "Editare -> Selectați tot" și apoi pe "Editare -> Copiere". < • Utilizați instrumentul Selectare dacă doriți doar să extrageți o parte din text. Faceți clic pe instrumentul "Selectare text" și apoi alegeți informațiile pe care le doriți. Într-un document formatat în mai multe coloane, va trebui să utilizați mai întâi instrumentul "Selectare coloană". Accesați "Editare -> Copiere".

Conversia PDF-ului în HTML

Pasul 1
Utilizați Gmail ca o comandă rapidă. Atașați fișierul PDF la un e-mail și trimiteți-l în contul Gmail. Când deschideți e-mailul, veți vedea un număr de opțiuni lângă atașament. Alegeți "Vizualizați ca HTML" și salvați fișierul care se deschide într-o fereastră separată. Deși nu veți putea vizualiza nicio grafică, fișierul HTML va păstra formatarea textului documentului.

Pasul 2
Extrageți și convertiți fișierele din linia de comandă. Utilizatorii Linux pot folosi o comandă de conversie de bază care va schimba un fișier .pdf într-un fișier .txt: "pdftotext filename.pdf". Asigurați-vă că înlocuiți numele fișierului cu numele fișierului PDF.
Descărcați un program de conversie a textului în format PDF. Există o serie de programe open source și freeware disponibile, cum ar fi PDFBox și Easy PDF to Text Converter (consultați Resursele de mai jos). Multe dintre aceste programe pot converti, de asemenea, fișierele PDF în HTML.

Sfaturi
Determinați dacă documentul este formatat să conțină text și grafică. Abordarea Adobe Acrobat va funcționa numai dacă fișierul PDF conține ambele; acesta nu va funcționa numai pentru fișierele cu imagini. În unele cazuri, textul dintr-un document PDF este de fapt formatat ca o imagine. Acest lucru se întâmplă adesea atunci când se scanează un document original și se creează un fișier PDF din imaginea scanată.
Fiți pregătit să reformați o parte din text atunci când utilizați Acrobat Reader. Acest mod de extragere pur și simplu exporta fișierul PDF într-un fișier text - nu va reține în mod necesar să păstreze formatarea. Cu toate acestea, dacă trebuie doar să utilizați cuvintele, acest lucru nu ar trebui să fie o problemă.

Elementele de care veți avea nevoie

  • Fișier PDF
  • Adobe Acrobat Reader
  • Cont Gmail (opțional)
  • Software-ul de conversie a textului PDF (opțional)


    URL:https://ro.whycomputer.com/software-ul/100500187.html

  • Software-ul
    • Cum să faci un document Word într-un PDF

      Adobe Portable Document Format a fost conceput pentru a menține formatarea unui document indiferent de locul în care este vizualizat sau tipărit. Microsoft Word nu include o opțiune de a crea fișiere PDF în mod implicit. Cu toate acestea, există mai multe moduri de a crea fișiere PDF din documentele

    • Cum să eliminați protecția dintr-un fișier PDF

      Dacă aveți un fișier PDF protejat pe computer pentru a nu îl putea deschide sau edita, va trebui să eliminați protecția din acel fișier PDF. Dacă nu ați creat inițial fișierul PDF, va trebui să utilizați un software terță parte pentru a elimina restricțiile din fișier. GuaPDF este un program care po

    • Cum se elimină un cadru dintr-un text Text Document

      Cadrele text din documentele Microsoft Word sunt utilizate pentru a încorpora funcții într-un document sau pentru a plasa anumite blocuri de text. Uneori, un document scanat va genera automat cadre de text când software-ul de recunoaștere a caracterelor convertește documentul în format MS Word. Elim

    Cunoașterea pe Internet © https://ro.whycomputer.com