Modul de scriere a textului OCR în fișiere PDF și imagine în Adobe Acrobat

Documentele scanate sunt minunate. Acestea vă permit să arhivați stive de hârtie în folderele de pe computerul dvs., ocupând mult mai puțin spațiu și organizând, mutați și copiați, infinit mai ușor. Ce nu este atât de mare este găsirea conținutului stocat în interiorul uneia dintre sutele de documente scanate. În mod implicit, acestea sunt puțin mai mult decât o imagine a documentului dvs. - și dacă doriți să găsiți informații în ele, va trebui să le deschideți pe fiecare și să o citiți.

Sau, ați putea lăsa computerul dvs. să facă ridicarea greoaie pentru dvs., transformând imaginea în text și permițându-vă să căutați prin documentele scanate la fel de ușor cum căutați prin orice alte documente. Asta e ceea ce OCR-Optical Character Recognition-o face. Utilizează inteligența computerului pentru a recunoaște forma literelor într-o imagine sau un document scanat și le transformă în text digital pe care îl puteți copia și edita după cum este necesar.

Iată cum puteți utiliza instrumentul OCR încorporat în Adobe Acrobat pentru a transforma documentele scanate și fotografiile scanate în text digital real.

OCR un document sau o imagine în Acrobat

Adobe Acrobat este programul standard original pentru crearea, editarea și vizualizarea fișierelor PDF. Este folosit în mod obișnuit în afaceri și este asociat cu Adobe Creative Suite și versiunea completă a Creative Cloud, astfel încât există o șansă bună pentru calculatorul dvs. de afaceri deja instalat - sau îl puteți instala gratuit de la abonamentul dvs. Creative Cloud. Dacă da, este un instrument minunat să vă scanați rapid documentele pe un Mac sau un PC.

Notă: acest tutorial necesită Adobe Acrobat, nu Chirpici Cititor. Acesta din urmă este o aplicație gratuită doar pentru vizualizarea fișierelor PDF. Dacă aceasta este tot ce aveți, săriți la sfârșitul acestui tutorial pentru alte instrumente OCR excelente pe care le puteți utiliza.

Deschideți imaginea sau PDF și obțineți Acrobat a început să recunoască textul

Acrobat poate recunoaște textul în orice fișier PDF sau imagine în zeci de limbi. Tot ce trebuie să faceți este să deschideți documentul scanat sau imaginea pe care doriți să o înregistrați, apoi faceți clic pe albastru Unelte în partea din dreapta sus a barei de instrumente. În bara laterală, selectați Recunoașteți textul , apoi faceți clic pe În acest fișier buton.

Veți primi acum câteva opțiuni pentru a modifica codul dvs. OCR. Dacă recunoașteți un document care se află în limbile implicite ale computerului dvs. (în limba engleză (SUA), în cazul meu), faceți clic pur și simplu O.K pentru a obține recunoașterea textului. Altfel, faceți clic pe Editați | ×… pentru a selecta limba dvs. OCR, alegeți stilul de ieșire PDF și rezoluția pe care doriți ca Acrobat să o utilizeze în timp ce recunoașteți textul.

Confirmați setările OCR

După o scurtă pauză indicată de o bară de progres din partea de jos a ferestrei, textul dvs. va fi pe deplin recunoscut. A fost nevoie de numai 15 secunde pentru a recunoaște textul pe un formular scanat de 1 pagină pe MacBook Air 2012, dar câteva minute într-un manual PDF cu 30 de coli color. Odată ce ați terminat, puteți selecta orice text din document și îl puteți copia în mod normal sau căutați text în document. Implicit, Acrobat va salva textul recunoscut în interiorul fișierului original atunci când aveți OCR un fișier PDF și dacă veți marca o imagine OCR, va salva imaginea cu textul său într-un fișier PDF nou. Oricum, textul recunoscut va apărea ulterior în orice cititor PDF, ca și cum ar fi fost un document digital original.

Copiați textul dintr-un document scanat ca text simplu sau cu formatare - sau utilizați PDF-ul ca PDF normal

Cu textul recunoscut, puteți marca acum PDF-ul folosind toate instrumentele de marcare obișnuite - puteți evidenția, elimina textul și multe altele. Puteți chiar să copiați textul cu formatul detectat, deși acest lucru este adesea mai puțin exact decât recunoașterea textului în sine.

Exportați documentele dvs. OCR

Dacă doriți să editați documentele originale scanate sau, probabil, reutilizați informațiile din acestea într-un document nou, veți dori mai mult decât doar text selectabil pe un PDF. Veți dori ca întreg documentul să fie convertit. Acrobat face și acest lucru ușor, scriind textul și exporându-l ca un document nou într-un singur pas.

Doar deschideți documentul pe care doriți să îl înregistrați și convertiți, faceți clic pe Fişier > Salvează ca… și alegeți formatul dorit. Puteți exporta ca document Word sau text de tip text, foaie de calcul Excel sau CSV sau ca HTML. Adăugați numele fișierului dorit și locația pe care doriți să o salvați și faceți clic pe Salvați. Acrobat va continua să afișeze aceeași bară de progres în partea de jos a ferestrei în timp ce recunoaște textul și formatarea în documentul dvs. și apoi va salva copia exportată.

Exportați imaginile și fișierele PDF din Acrobat cu rezultate diferite.

Exporturile Acrobat din documentele scanate sunt surprinzător de bune și frustrant de rele. Acesta va recunoaște cea mai mare parte a textului și a formatării și probabil veți fi surprins de cât de frumos arată documentul exportat, dacă nu este prea complex. Dar, atunci nu este documentul original. Vor fi greșeli, formatări pe care va trebui să le rezolvați și multe altele. Cea mai bună modalitate este să utilizați întotdeauna documentul digital original, dar aceasta este o modalitate excelentă de a obține o copie digitală a unui document dacă tot ce aveți este o scanare.

În timp ce OCR nu este perfect, OCR-ul Acrobat este destul de bun. În această formă scanată, aproape fiecare cuvânt a fost detectat corect, deși o instanță a cuvântului Nume a fost detectat ca N "" e. Este suficient de bun dacă doriți să fiți capabil să căutați aproximativ prin documentele dvs. utilizând instrumentul de căutare al cititorului PDF, deși dacă utilizați OCR pentru a face o copie a textului original, veți dori să dovedească - Citiți-o mai întâi și asigurați-vă că ați corectat toate greșelile evidente.

OCR Documente Multiple la o dată

Aveți o mulțime de documente pe care doriți să le înregistrați OCR imediat? Acrobat este minunat și pentru asta. Deschideți orice document în Acrobat, apoi deschideți Recunoașteți textul bara laterală ca înainte. De această dată, selectați În fișiere multiple , și veți vedea o fereastră în care puteți glisa toate fișierele pe care doriți să le înregistrați. Din nou, puteți adăuga fișiere PDF sau imagine, iar Acrobat va recunoaște textul și le va salva în format PDF. Există și câteva opțiuni suplimentare, unde puteți alege unde să salvați fișierele finalizate și cum doriți să le numiți.

Alte instrumente OCR

Acrobat nu este singura modalitate de a obține textul OCR din documentele scanate, desigur. Dacă nu aveți deja o copie a acesteia, există o grămadă de alte instrumente pe care le puteți utiliza. Am acoperit deja cele mai bune instrumente pentru OCR pe Mac: Prizmo, FineReader, aplicația Doxie, PDFPen și Evernote. Prizmo și PDFPen ar funcționa, de asemenea, pe dispozitivele dvs. iOS pentru OCR în deplasare, iar aplicația Doxie funcționează și pe PC-uri. Evernote nu vă permite să copiați textul, dar funcționează peste tot - și pe PC, OCR-ul OneNote este excelent și gratuit.

Există, de asemenea, librăria Tesseract OCR gratuită, cu o aplicație gratuită extrem de gratuită, care vă poate recunoaște textul. Un alt instrument prietenos cu bugetul OCR este textul pica, pentru 3,99 USD. În orice caz, dacă OCR este tot ce aveți nevoie, nu trebuie să obțineți o copie a Acrobat doar pentru asta - dar dacă aveți Acrobat, instrumentul OCR este o extraordinară extra.

Concluzie

Având câteva minute la OCR documentele dvs. PDF este tot ceea ce le va lua pentru a le obține de la a fi imagini de bază ale documentelor dvs. de hârtie la documente digitale cu drepturi depline puteți căuta, copia de text, marcare și export în formate Office. Acrobat a fost malign pentru cititorul PDF, dar are încă o mulțime de caracteristici extraordinare, iar OCR este una dintre ele.

Dacă aveți o copie a Acrobat sau un abonament Creative Cloud, faceți o încercare și obțineți documentele scanate OCRed. Ei vor fi instantaneu mult mai valoroși pentru tine decât ar fi vreodată scanări simple.

Competențe informatice