hyödyllisiä artikkeleita

Kuinka luon hakukelpoisen arkiston PDF-tiedostoista?

Tämän viikon teknisten neuvojen sarakkeessa Goldavelez.com -sivustolla - pidä kysymyksesi jatkuvana! - Autamme lukijaa, jolla on aivan liian monta tärkeää asiakirjaa, joka on tehtävä maagisen siirtymän digitaaliseen maailmaan. Ainakin se kuulostaa paljon mielenkiintoisammalta kuin ”Optical Character Recognition”, joka ei todellakaan kieru kieltä.

Goldavelez.com-lukija Phil kirjoittaa:

Kiitos ystävällisistä sanoista, Phil! Autan mielelläni - ei mielialan takia, vaan koska kysymyksesi on sellainen, josta monet lukijat ovat todennäköisesti ajatelleet (minä mukaan lukien). Minulla on koko pino asioita, jotka haluaisin siirtää fyysisestä maailmasta digitaaliseen maailmaan, joten voin sitten Marie Kondo alkuperäiset asiakirjat ja valokuvat unohtaa. Paperipinot eivät tuota minulle iloa.

Voit kokeilla muutama vaihtoehto. Aloitan selvästikin: Google. Jos olet luomassa PDF-tiedostoja, lähetä tiedostosi Google Driveen. Napsauta hiiren kakkospainikkeella mitä tahansa yksittäistä PDF-tiedostoa, vie hiiri hiiren osoittamalla Open with -kohdan päälle ja valitse “Google Docs”. Google yrittää sitten suorittaa tekstintunnistuksen OCR-tiedostossasi, ja sinun pitäisi pystyä tallentamaan tuloksena oleva tiedosto asiakirjana. Voit sitten etsiä tätä asiakirjaa (ja kaikkia muita muuntamasi) itse Driven kautta.

Mitä enemmän ajattelen sitä, tämä ratkaisu näyttää hiukan epäelektiiviseltä ottaen huomioon, kuinka monta tiedostoa sinun on työskenneltävä. Sen sijaan voin kokeilla ohjelmistoa, kuten TesseractStudio.Net - tai vain Tesseract OCR, jos et pelkää komentoriviä. Sinun pitäisi pystyä käyttämään tätä luomaan OCR-tietoja tiedostoistasi, ja voit sitten etsiä niitä suoraan Windowsin tai macOS: n kautta. OCRmyPDF on toinen vaihtoehto, joka on samanlainen kuin Tesseract OCR, mutta jälleen kerran pelaat kirjoitetuilla komennoilla lisätäksesi OCR tiedostoihisi. GUI: tä ei ole, eikä Windowsissa ole (suoraa) tukea.

Mukana on myös Paperwork, avoimen lähdekoodin asiakirjojen luettelointityökalu, joka toimitetaan sisäänrakennetun tekstintunnistussovelluksen kanssa. Katson ehdottomasti, että se on suunniteltu all-in-one-ohjelmistoksi asiakirjojen arkistointiin, lajitteluun ja etsimiseen. Kuulostaa siltä, ​​että se saattaa olla juuri etsimäsi.

En ole käyttänyt PDF-XChange Viewer -sovellusta, mutta toiset ovat suositelleet sitä vaihtoehtona. Ilmainen versio pudottaa vesileimat PDF-tiedostoihisi, mutta se voi luoda PDF-tiedostoja kuvista ja, jos olen oikein, lisätä tekstintunnistus näihin olemassa oleviin PDF-tiedostoihin. Se kannattaa tutkia, vaikka se ei olisi ihanteellinen (ilmainen) ratkaisu. Samoin FreeOCR voi ottaa kuviasi tai PDF-tiedostoja, soveltaa tekstintunnistusta ja viedä tulokset tavallisina tekstitiedostoina tai Word-asiakirjoina. Jos et välitä etsimästä arkistoistasi tällä tavalla, se on vaihtoehto.

Maksuista ratkaisuista löytyy aina Adobe Acrobat Pro tai Foxit PhantomPDF . Molemmat antavat sinun lisätä OCR-tiedostoja PDF-tiedostoihin, ja sinun pitäisi pystyä käsittelemään kaikki asiakirjat suurena eränä (tai luomaan skripti, joka tekee tämän kansiot arvoisella sisällöllä). Saatat jopa pystyä saamaan tämän kaiken aikaan sovellusten ilmaisten kokeilujen aikana, jos ne eivät rajoita OCR-ominaisuuksiaan. Olen nähnyt myös muiden ongelmasi kanssa menestyvän sellaisen sovelluksen avulla, kuten PDF OCR, joka voi olla halvempi vaihtoehto.

Se on kaikki mitä voin ajatella pään päästäni (ja pienellä tutkimuksella). Toivottavasti yksi näistä ratkaisuista toimii sinulle - maksaa sinulle vähän omaisuuksia. Kirjoita takaisin ja kerro minulle, mikä sovellus toimii parhaiten sinulle!

Tech 911 Onko sinulla tekninen kysymys pitää sinut yöllä? Haluamme mielellämme vastata siihen! Sähköposti, otsikkorivillä "Tech 911".