Databricks introduceert data lineage voor Unity Catalog

Persbericht 10-06-2022 om 11:37 - Datacenters - ICT & Internet


Databricks introduceert data lineage voor Unity Catalog


Nieuwe data lineage-functionaliteit biedt klanten meer transparantie en geeft hen proactieve controle over hoe data wordt gebruikt in hun lakehouse

Databricks, data- en AI-leider en pionier van de lakehouse-architectuur, kondigt vandaag data lineage (‘dataherkomst’) aan voor Unity Catalog, waarmee de mogelijkheden voor datagovernance voor het lakehouse aanzienlijk worden uitgebreid. Data lineage beschrijft hoe data door een organisatie stroomt. Met deze nieuwe functie van Unity Catalog kunnen klanten inzicht krijgen in de herkomst van hun data in hun lakehouse, in wie de data heeft aangemaakt en wanneer, hoe de data in de loop der tijd is gewijzigd, hoe de data wordt gebruikt, en nog veel meer. Data lineage voor Unity Catalog is nu beschikbaar als preview op AWS en Microsoft Azure. 

Organisaties hebben te maken met een toevloed aan data uit verschillende bronnen. Het is buitengewoon lastig om te overzien waar die data vandaan komt, hoe die beweegt en verandert, wie er toegang toe heeft, en hoe de data wordt gebruikt. Toch is dat inzicht van het grootste belang voor het vertrouwen en om risico’s goed te kunnen inschatten. Dankzij data lineage voor Unity Catalog hebben datateams alle toepassingen verderop in het proces in beeld die de gevolgen merken van datawijzigingen – applicaties, dashboards, machine learning-modellen of datasets, enz. – en krijgen ze eenvoudig inzicht in de ernst van de impact zodat ze snel de relevante betrokkenen op de hoogte kunnen stellen van wijzigingen.

Data lineage stelt datagebruikers zoals data-scientists, data-engineers en data-analisten, in staat om, rekening houdend met de context, analyses uit te voeren. Dat zorgt voor kwalitatief betere uitkomsten. Bovendien kunnen data-stewards zien welke datasets niet meer worden gebruikt of verouderd zijn, zodat overbodige data buiten gebruik kan worden gesteld. Dit vermindert risico’s en zorgt er bovendien voor dat eindgebruikers alleen hoogwaardige data gebruiken. De nieuwe mogelijkheden binnen Unity Catalog geven bedrijven een compleet beeld van de totale levenscyclus van data. Daardoor hebben de verantwoordelijken voor de data inzicht in de manier waarop data wordt verzameld, of deze is bijgewerkt en welke processen zijn gebruikt. 

“Governancefuncties zoals data lineage zijn van cruciaal belang bij het bouwen van het meest robuuste lakehouse-platform op de markt”, zegt Matei Zaharia, medeoprichter en Chief Technologist bij Databricks. “Zonder goede data lineage is het lastig om de bedrijfs- en verificatieprocessen te blijven volgen die datagedreven organisaties nodig hebben om succesvol te zijn. Wij willen ervoor zorgen dat onze klanten zich kunnen richten op inzichten, en over kunnen gaan op proactief datamanagement door middel van een eenduidig, transparant beeld van hun gehele data-ecosysteem.” 

De belangrijkste kenmerken van Unity Catalog zijn onder meer geautomatiseerde run-time lineage om alle in Databricks gegenereerde lineage vast te leggen. Dat biedt meer accuratesse en efficiëntie in vergelijking met het handmatig taggen van data. Deze informatie wordt vastgelegd voor tabellen, doorzichten en kolommen en geeft een gedetailleerd beeld van de upstream en downstream datastromen. Bovendien werkt lineage in alle workloads die door Databricks worden ondersteund, zoals SQL, Python, R en Scala en dat betekent dat alle data-persona’s hun tools kunnen versterken met data-intelligentie en betere inzichten. Dit omvat ook het vastleggen van lineage voor invoer als notebooks, workflows en dashboards.

Data lineage helpt organisaties ook om beter te voldoen aan compliancenormen door het eenvoudiger te maken om datastromen bij te houden die onder de compliance-regelgeving vallen, zoals de AVG (of GDPR) of Amerikaanse regelgeving als de California Consumer Privacy Act (CCPA) of de Health Insurance Portability and Accountability Act (HIPAA). Juist de traceerbaarheid van data is een cruciaal element in een moderne data-architectuur waarmee klanten aan wettelijke vereisten kunnen voldoen. 

In deze blog wordt dieper ingegaan op (de preview van) data lineage in Unity Catalog van Databricks.


===einde persbericht===

Noot voor de redactie (niet voor publicatie):

Voor meer informatie over dit persbericht of over Databricks neem je contact op met:

Sarada Sant (ClarityPR), telefoon: 023 555 34 24, e-mail.

Downloaden is alleen mogelijk wanneer je bent ingelogd. Klik hier om in te loggen.

Databricks

Type:
Bedrijf

Contactpersoon:
Sarada Sant

Adres:
Barbara Strozzilaan 350, 1083 HN Amsterdam, Nederland

Telefoon:
023 555 34 24

Over Databricks:
Databricks is hét data- en AI-bedrijf. Duizenden organisaties, waaronder Comcast, Condé Nast, Nationwide en H&M, vertrouwen op het open en geïntegreerde platform van Databricks voor data engineering, machine learning en analytics. Databricks wordt ondersteund door verschillende investeerders. Het hoofdkantoor is gevestigd in San Francisco en het bedrijf is opgericht door de initiatiefnemers van Apache Spark, Delta Lake en MLflow. Het is hun missie om datateams te helpen de meest complexe problemen op te lossen. Volg Databricks op Twitter, LinkedIn en Facebook voor meer informatie. Voor meer informatie: www.databricks.com. Apache, Apache Spark and Spark zijn trademarks van de Apache Software Foundation.

Lees meer

Reacties op deze content

Om reacties te kunnen plaatsen en bekijken moet je ingelogd zijn. Klik hier om in te loggen.