Allereerst: waarom worden pdf bestanden zoveel gebruikt? De reden is dat pdf bestanden er op iedere computer hetzelfde uitzien. Het maakt niet uit welke pdf viewer je gebruikt. Dat kan Adobe Reader zijn, of Foxit Reader of PDF-XChange of een van de tientallen andere pdf viewers. Het bestand ziet er altijd hetzelfde uit, met welke pdf viewer je dat pdf bestand ook opent.
Tevens worden pdf bestanden gebruikt, omdat het dan niet de bedoeling is dat er nog iets gewijzigd gaat of kan worden in dat bestand. Het bestand is als het ware definitief gemaakt.
En daarom kost het ook wat moeite om toch wijzigingen aan te brengen in zo'n pdf bestand. Normaal gesproken moet dan van het pdf bestand eerst een Word bestand gemaakt worden. Tegenwoordig hebben Word bestanden de extensie docx. Wanneer het pdf bestand eenmaal omgezet is naar een docx bestand, dan kun je wijzigingen aanbrengen, net zoals je dat in andere (niet beveiligde) Word bestanden kunt doen.
Een gescand bestand is altijd een afbeelding. Vroeger had ik een losse HP scanner waarbij OCR software was geleverd. Na registratie van die OCR software kwam er bij het scannen een extra mogelijkheid bij: scannen naar doorzoekbaar pdf (of zoiets, want die losse scanner gebruik ik al een tijd niet meer).
Mijn huidige HP Photosmart C5180 All-in-One heeft die extra mogelijkheid niet. Iedere scan, ook een scan naar PDF wordt altijd een afbeelding. Zie daarvoor de rode pijl in onderstaande afbeelding:
Ik heb een brief van het aidsfonds (nee, ik heb zelf geen aids, maar ik ben donateur..) gescand naar PDF. Dat wordt dus altijd een pdf bestand, waarbij de tekst uit 1 grote afbeelding bestaat.
Daarna ging ik naar deze website:
Free Online OCR - convert scanned PDF and images to Word, JPEG to Word
Ik ga nu beschrijven wat je op die website moet doen om van zo'n pdf (het resultaat van een scan) een Word bestand te maken:
Stap 1: Klik op
Select File. De verkenner zal openen. Blader naar het bestand dat je wilt gaan omzetten. Gevonden? Dubbelklik op dat bestand. Het wordt dan geüpload naar die website.
Stap 2:
Select language and output. Klik op ENGLISH en kies als taal DUTCH (als dat ook bij jou de taal is van jouw pdf). Het output format is al Microsoft Word (docx). Dat is goed, dus daar hoef je niets te wijzigen.
Stap 3: Klik op de blauwe knop (met daarop in witte letters)
CONVERT. Het pdf bestand wordt dan omgezet naar een Word bestand. Dat gaat vrij snel.
Stap 4: Klik nu op
Download Output File. Het bestand wordt gedownload naar je computer en komt terecht in de map Downloads.
Hieronder een afbeelding waar je de stappen kunt zien:
Stap 5: Ga op je computer naar de map waar het gedownloade bestand is opgeslagen en dubbelklik erop. Het docx bestand zal geopend worden in Microsoft Word.
Bovenaan zul je hoogstwaarschijnlijk een melding zien dat het bestand om veiligheidsredenen in de modus 'Alleen lezen' staat. Die beperking kun je daar opheffen. Daarna kun je het bestand gaan bewerken.
Ik vind dat het converteren van mijn pdf bestand naar docx erg goed verlopen is. Soms wordt een enkele afbeelding of logo niet goed weergegeven, maar de tekst zelf was perfect omgezet.
--------------------------------------------------
Jij dacht erover om zelf OCR software te gaan kopen. Dat kan, maar houd dan zeker rekening met een bedrag van € 100. Met goedkopere software ga je het niet zelf redden. Dat zal dan een teleurstelling worden.
Zelf peins ik er niet over om OCR software te gaan kopen. Het zal niet vaak voorkomen dat ik daarvan gebruik ga maken.