Gegevens importeren van PDF naar Excel via Power Query

De taak om gegevens van een spreadsheet in een PDF-bestand over te zetten naar een Microsoft Excel-blad is altijd "leuk". Zeker als je geen dure herkenningssoftware zoals FineReader of iets dergelijks hebt. Direct kopiëren leidt meestal niet tot iets goeds, want. nadat de gekopieerde gegevens op het blad zijn geplakt, zullen ze hoogstwaarschijnlijk "aan elkaar plakken" in één kolom. Dus ze zullen dan nauwgezet moeten worden gescheiden met behulp van een hulpmiddel Tekst per kolom van het tabblad Data (Gegevens — Tekst naar kolommen).

En natuurlijk is kopiëren alleen mogelijk voor die pdf-bestanden waar een tekstlaag op zit, dus bij een document dat net van papier naar pdf is gescand, dit werkt in principe niet.

Maar het is niet zo triest, echt niet

Als u Office 2013 of 2016 hebt, is het in een paar minuten, zonder extra programma's, heel goed mogelijk om gegevens van PDF naar Microsoft Excel over te zetten. En Word en Power Query helpen ons daarbij.

Laten we bijvoorbeeld dit pdf-rapport nemen met een heleboel tekst, formules en tabellen van de website van de Economische Commissie voor Europa:

Gegevens importeren van PDF naar Excel via Power Query

... en probeer het eruit te halen in Excel, zeg de eerste tabel:

Gegevens importeren van PDF naar Excel via Power Query

Laten we gaan!

Stap 1. PDF openen in Word

Om de een of andere reden weten maar weinig mensen het, maar sinds 2013 heeft Microsoft Word geleerd om PDF-bestanden te openen en te herkennen (zelfs gescande, dus zonder tekstlaag!). Dit gebeurt op een volledig standaard manier: open Word, klik op Bestand – Openen (Bestand — Openen) en specificeer het PDF-formaat in de vervolgkeuzelijst in de rechterbenedenhoek van het venster.

Selecteer vervolgens het PDF-bestand dat we nodig hebben en klik op Openen (Open). Word vertelt ons dat het OCR op dit document naar tekst gaat uitvoeren:

Gegevens importeren van PDF naar Excel via Power Query

We zijn het ermee eens en binnen een paar seconden zullen we onze PDF al in Word open zien staan ​​voor bewerking:

Gegevens importeren van PDF naar Excel via Power Query

Natuurlijk zullen het ontwerp, stijlen, lettertypen, kop- en voetteksten, enz. gedeeltelijk uit het document vliegen, maar dit is niet belangrijk voor ons - we hebben alleen gegevens uit tabellen nodig. In principe is het in dit stadium al verleidelijk om de tabel gewoon uit het herkende document in Word te kopiëren en gewoon in Excel te plakken. Soms werkt het, maar vaker leidt het tot allerlei gegevensvervormingen - getallen kunnen bijvoorbeeld in datums veranderen of tekst blijven, zoals in ons geval, omdat. PDF gebruikt niet-scheidingstekens:

Gegevens importeren van PDF naar Excel via Power Query

Dus laten we niet bezuinigen, maar alles een beetje ingewikkelder maken, maar goed.

Stap 2: Sla het document op als webpagina

Om de ontvangen gegevens vervolgens in Excel te laden (via Power Query), moet ons document in Word worden opgeslagen in het webpaginaformaat - dit formaat is in dit geval een soort gemene deler tussen Word en Excel.

Ga hiervoor naar het menu Bestand – Opslaan als (Bestand — Opslaan als) of druk op de toets F12 op het toetsenbord en in het venster dat wordt geopend, selecteert u het bestandstype Webpagina in één bestand (Webpagina — Enkel bestand):

Gegevens importeren van PDF naar Excel via Power Query

Na het opslaan zou u een bestand met de mhtml-extensie moeten krijgen (als u bestandsextensies ziet in Verkenner).

Stap 3. Het bestand uploaden naar Excel via Power Query

U kunt het gemaakte MHTML-bestand rechtstreeks in Excel openen, maar dan krijgen we ten eerste alle inhoud van de PDF in één keer, samen met tekst en een heleboel onnodige tabellen, en ten tweede verliezen we opnieuw gegevens vanwege onjuiste scheidingstekens. Daarom zullen we de import in Excel uitvoeren via de Power Query-invoegtoepassing. Dit is een volledig gratis add-on waarmee u vanuit vrijwel elke bron (bestanden, mappen, databases, ERP-systemen) gegevens naar Excel kunt uploaden en de ontvangen gegevens vervolgens op alle mogelijke manieren kunt transformeren en de gewenste vorm kunt geven.

Als u Excel 2010-2013 heeft, kunt u Power Query downloaden van de officiële Microsoft-website - na installatie ziet u een tabblad Power Query. Als u Excel 2016 of nieuwer hebt, hoeft u niets te downloaden - alle functionaliteit is standaard al in Excel ingebouwd en bevindt zich op het tabblad Data (Datum) in groep Downloaden en converteren (Krijgen en transformeren).

Dus we gaan ofwel naar het tabblad Data, of op het tabblad Power Query en kies een team Gegevens ophalen: or Query maken – Van bestand – Van XML. Om niet alleen XML-bestanden zichtbaar te maken, wijzigt u de filters in de vervolgkeuzelijst in de rechterbenedenhoek van het venster in: Alle bestanden (Alle bestanden) en specificeer ons MHTML-bestand:

Gegevens importeren van PDF naar Excel via Power Query

Houd er rekening mee dat het importeren niet wordt voltooid, omdat. Power Query verwacht XML van ons, maar we hebben eigenlijk een HTML-formaat. Daarom moet u in het volgende venster dat verschijnt met de rechtermuisknop op het bestand klikken dat onbegrijpelijk is voor Power Query en de indeling opgeven:

Gegevens importeren van PDF naar Excel via Power Query

Daarna wordt het bestand correct herkend en zien we een lijst met alle tabellen die het bevat:

Gegevens importeren van PDF naar Excel via Power Query

U kunt de inhoud van de tabellen bekijken door met de linkermuisknop in de witte achtergrond (niet in het woord Tabel!) van de cellen in de kolom Gegevens te klikken.

Wanneer de gewenste tabel is gedefinieerd, klikt u op het groene woord tafel – en je “valt door” in de inhoud ervan:

Gegevens importeren van PDF naar Excel via Power Query

Het blijft om een ​​paar eenvoudige stappen te doen om de inhoud ervan te "kammen", namelijk:

  1. verwijder onnodige kolommen (klik met de rechtermuisknop op de kolomkop - verwijderen)
  2. vervang punten door komma's (selecteer kolommen, klik met de rechtermuisknop - Waarden vervangen)
  3. verwijder gelijktekens in de kop (selecteer kolommen, klik met de rechtermuisknop - Waarden vervangen)
  4. verwijder de bovenste regel (Home – Regels verwijderen – Bovenste regels verwijderen)
  5. verwijder lege regels (Home – Regels verwijderen – Lege regels verwijderen)
  6. verhoog de eerste rij naar de tabelkop (Home – Gebruik de eerste regel als koppen)
  7. filter onnodige gegevens uit met een filter

Wanneer de tafel in zijn normale vorm is gebracht, kan deze op het blad worden gelost met het commando sluiten en downloaden (Sluiten & laden) on De belangrijkste tabblad. En we zullen zo'n schoonheid krijgen waarmee we nu al kunnen werken:

Gegevens importeren van PDF naar Excel via Power Query

  • Een kolom transformeren naar een tabel met Power Query
  • Plaktekst in kolommen splitsen

Laat een reactie achter