Nieuws

Terugblik – Webinar Beacon 10 december 2025

Beacon schermafbeelding 2

Snel subsets maken van grote, verspreide datasets

Op 10 december organiseerde MARIS een technisch DigiShape-webinar over Beacon: een open-source technologie die het eenvoudiger maakt om grote verzamelingen observatiedata beschikbaar te maken voor onderzoek, modellering en data-analyse. 

Tijdens het webinar gaven Peter Thijsse, Robin Kooyman en Tjerk Krijger een inkijk in de achterliggende techniek, hoe Beacon op te zetten is, de manier waarop Beacon met ruwe data omgaat en hoe gebruikers er vanuit notebooks en een grafische interface mee kunnen werken.

Kijk het webinar Beacon terug

Download de webinar-slides (pdf)

Samenvatting

Waarom deze technologie relevant is

In veel organisaties liggen meetgegevens verspreid over duizenden tot miljoenen losse bestanden. Die zijn vindbaar en bruikbaar, maar in de praktijk lastig doorzoekbaar. Het samenstellen van subsets – bestaand uit stukjes van de oorspronkelijke datasets – vraagt vaak complexe workflow, veel tijd en maatwerk: scripts die elk bestand afzonderlijk moeten openen, tijdelijke conversies of aanvullende tussenstappen. Tegelijkertijd groeit juist de behoefte om subsets van datacollecties vlot beschikbaar te krijgen voor analyses, notebooks, modellering en digitale tweelingen.

Veel organisaties bouwen daarom aan datalake-achtige oplossingen waarin verschillende datastromen op een consistente manier toegankelijk worden gemaakt. Beacon sluit hierbij aan doordat het geen herstructurering van data vraagt, maar bestaande folderstructuren en object stores benadert alsof het één samenhangende bron is, en ook nog eens razendsnel is. Daarmee wordt het eenvoudiger om verspreide bestanden in verschillende formaten op een uniforme manier te bevragen en te combineren.

Hoe Beacon werkt

Beacon draait bovenop bestaande bestandssystemen op fysieke servers of S3-buckets in de cloud. De bestanden hoeven niet vooraf te worden ingeladen of geconverteerd. De engine kan direct subsets maken uit formaten zoals NetCDF, Zarr, Parquet, CSV en Arrow. Daarbij voert Beacon automatisch een aantal bewerkingen uit: het vult ontbrekende kolommen aan, zet datatypes om naar een bruikbare vorm en kan units converteren waar dat nodig is. Het resultaat is één uitvoerbestand dat direct in notebooks of applicaties kan worden gebruikt.

In het webinar liet Robin Kooyman zien hoe Beacon is opgebouwd. De technologie is geschreven in Rust en combineert een REST-API met een set core libraries die verantwoordelijk zijn voor het beheren van collecties, het lezen van verschillende formaten en het uitvoeren van query’s. Onder de motorkap maakt Beacon gebruik van Apache Arrow en DataFusion voor het plannen en uitvoeren van query’s. Hierdoor kunnen relevante kolommen worden geselecteerd, filters naar de bron worden doorgestuurd en bestanden parallel worden verwerkt. Het effect is dat subsets uit grote verzamelingen bestanden in zeer snel op te vragen zijn, zonder dat er vooraf een zware infrastructuur nodig is.

Een belangrijk onderdeel is het Beacon Binary Format (BBF). Daarmee kunnen grote aantallen kleine bestanden – zoals NetCDF’s – worden samengevoegd in één containerformaat met een index. Dit is vooral nuttig voor datasets die traditioneel niet efficiënt parallel leesbaar zijn. Door BBF neemt de toegankelijkheid van zulke bestanden toe, vooral bij verkenningen en analyses.

Een Beacon-instance opzetten

In het tweede deel liet Robin zien hoe een Beacon-instance kan worden opgezet. Met een voorbeeldrepository en Docker-configuratie kan een provider binnen enkele minuten een instance starten, bestanden beschikbaar maken en collecties definiëren. Dit maakt het mogelijk voor organisaties om relatief laagdrempelig te experimenteren met de technologie en te verkennen hoe deze past binnen hun eigen datastromen.

Werken met Beacon in notebooks en via de Studio

Voor gebruikers die analyseren of modelleren, is er een Python Library ontwikkeld waarmee query’s direct vanuit notebooks kunnen worden uitgevoerd. Tjerk Krijger demonstreerde hoe filters op tijd, ruimte en parameters worden opgebouwd, en hoe subsets als pandas- of xarray-objecten worden opgehaald. Daarnaast is Beacon Studio ontwikkeld, die wordt gelinkt aan Beacon instanties waarmee via een grafische interface datasets verkend en gedownload kunnen worden op een simpele manier, inclusief kaart- en grafiekweergaven.

Bronnen en achtergrond materiaal

Vervolg

Beacon blijft in ontwikkeling. De ondersteuning voor geotypes wordt verder uitgebreid. Federatie – het kunnen bevragen van meerdere Beacon-instances als één bron – staat op de roadmap als Work in Progress (WIP). Organisaties die werken met grote observatiecollecties kunnen nu al onderzoeken of delen van hun datastromen met Beacon toegankelijker of efficiënter te gebruiken zijn.

Contact

Voor vragen over Beacon of ideeën voor samenwerking:

Relevantie voor DigiShape

De belangstelling voor kunstmatige intelligentie, geavanceerde modellering en digitale tweelingen groeit snel. Maar uiteindelijk valt of staat elk van die toepassingen met de vraag of de onderliggende data beschikbaar, betrouwbaar en samen te brengen is. Dit webinar liet zien dat technologieën zoals Beacon kunnen helpen om die basis te versterken. Het biedt een praktische manier om verspreide meetcollecties toegankelijk te maken, zonder voorbereidende conversiestappen of het opzetten van complexe architecturen.

Binnen de DigiShape-community is er steeds meer behoefte aan concrete voorbeelden en werkende oplossingen die organisaties helpen om data beter te benutten. Beacon is zo’n voorbeeld. De technologie laat zien dat relatief eenvoudige configuratie al kan leiden tot een beter toegankelijke dataset voor analyses en experimenten.

Gerelateerd nieuws

24 november 2025

Kick-off in Lelystad Maandag 24 november 2025 is het AI Impulsprogramma voor waterbewegingsmodellen officieel van start gegaan. Managers en collega’s [...]

13 november 2025

7 november 2025 – DigiShape dag bij Havenbedrijf Rotterdam Hoe krijg je data over bodem, water en infrastructuur zo op [...]

3 november 2025

Water laat zich steeds minder goed op de lange termijn voorspellen. Hoe speel je daar als waterbeheerder op in? In [...]

31 oktober 2025

30 oktober 2025 – DigiShape bijeenkomst bij Deltares in Delft Op donderdagmiddag 30 oktober organiseerde onze partner HKV een DigiShape-bijeenkomst [...]

/*; } .etn-event-item .etn-event-category span, .etn-btn, .attr-btn-primary, .etn-attendee-form .etn-btn, .etn-ticket-widget .etn-btn, .schedule-list-1 .schedule-header, .speaker-style4 .etn-speaker-content .etn-title a, .etn-speaker-details3 .speaker-title-info, .etn-event-slider .swiper-pagination-bullet, .etn-speaker-slider .swiper-pagination-bullet, .etn-event-slider .swiper-button-next, .etn-event-slider .swiper-button-prev, .etn-speaker-slider .swiper-button-next, .etn-speaker-slider .swiper-button-prev, .etn-single-speaker-item .etn-speaker-thumb .etn-speakers-social a, .etn-event-header .etn-event-countdown-wrap .etn-count-item, .schedule-tab-1 .etn-nav li a.etn-active, .schedule-list-wrapper .schedule-listing.multi-schedule-list .schedule-slot-time, .etn-speaker-item.style-3 .etn-speaker-content .etn-speakers-social a, .event-tab-wrapper ul li a.etn-tab-a.etn-active, .etn-btn, button.etn-btn.etn-btn-primary, .etn-schedule-style-3 ul li:before, .etn-zoom-btn, .cat-radio-btn-list [type=radio]:checked+label:after, .cat-radio-btn-list [type=radio]:not(:checked)+label:after, .etn-default-calendar-style .fc-button:hover, .etn-default-calendar-style .fc-state-highlight, .etn-calender-list a:hover, .events_calendar_standard .cat-dropdown-list select, .etn-event-banner-wrap, .events_calendar_list .calendar-event-details .calendar-event-content .calendar-event-category-wrap .etn-event-category, .etn-variable-ticket-widget .etn-add-to-cart-block, .etn-recurring-event-wrapper #seeMore, .more-event-tag, .etn-settings-dashboard .button-primary{ background-color: