Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article présente Unity Catalog, une solution de gouvernance unifiée pour les ressources de données et d’IA sur Azure Databricks.
Notes
Unity Catalog est également disponible en tant qu’implémentation open source. Consultez le blog d’annonce et le dépôt GitHub du catalogue Unity public.
Unity Catalog fournit des fonctionnalités centralisées de contrôle d’accès, d’audit, de traçabilité et de découverte des données dans les espaces de travail Azure Databricks.
Les principales fonctionnalités de Unity Catalog sont les suivantes :
- Définissez une fois, sécurisé partout : Unity Catalog offre un emplacement unique pour administrer les stratégies d’accès aux données qui s’appliquent à tous les espaces de travail.
- Modèle de sécurité conforme aux normes : le modèle de sécurité du catalogue Unity est basé sur ANSI SQL standard et permet aux administrateurs d’accorder des autorisations dans leur lac de données existant à l’aide d’une syntaxe familière, au niveau des catalogues, des schémas (également appelés bases de données), des tables et des vues.
- Audit et traçabilité intégrés : Unity Catalog capture automatiquement les journaux d’audit au niveau de l’utilisateur qui enregistrent l’accès à vos données. Unity Catalog capture également les données de traçabilité qui effectuent le suivi de la création et de l’utilisation des ressources de données dans tous les langages.
- Découverte des données : Unity Catalog vous permet d’étiqueter et de documenter des ressources de données et fournit une interface de recherche pour aider les consommateurs de données à trouver des données.
- Tables système (préversion publique) : Le catalogue Unity vous permet d’accéder et d’interroger facilement les données opérationnelles de votre compte, notamment les journaux d’audit, l’utilisation facturable et la traçabilité.
Dans Unity Catalog, toutes les métadonnées sont inscrites dans un metastore. Dans un metastore Unity Catalog, les objets de base de données sont hiérarchisés sur trois niveaux ; ils sont représentés par un espace de noms à trois niveaux (catalog.schema.table-etc
) lorsque vous faites référence à des tables, vues, volumes, modèles et fonctions.
Le metastore est le conteneur de niveau supérieur des métadonnées dans Unity Catalog. Il inscrit les métadonnées sur les ressources de données et d’IA, ainsi que les autorisations qui régissent l’accès à celles-ci. Pour qu’un espace de travail utilise Unity Catalog, un metastore Unity Catalog doit lui être attaché.
Vous devez disposer d’un metastore pour chaque région où vous disposez d’espaces de travail. Comment un espace de travail est-il attaché à un metastore ? Découvrez comment configurer le catalogue Unity pour mon organisation ?.
Dans un metastore Unity Catalog, la hiérarchie à trois niveaux des objets de base de données se compose de catalogues qui contiennent des schémas, qui eux-mêmes contiennent des données et des objets d’IA, comme des tables et des modèles.
Niveau 1 :
- Les catalogues sont utilisés pour organiser vos ressources de données et sont généralement utilisés comme niveau supérieur dans votre schéma d’isolation des données. Les catalogues reflètent souvent des unités d’organisation ou des étendues de cycle de vie de développement logiciel. Voir Quels sont les catalogues dans Azure Databricks ?.
- Les objets non sécurisables de données, tels que les informations d’identification de stockage et les emplacements externes, sont utilisés pour gérer votre modèle de gouvernance des données dans Unity Catalog. Ils se trouvent aussi directement sous le metastore. Elles sont décrites plus en détail dans d’autres objets sécurisables.
Niveau 2 :
- Les schémas (également appelés bases de données) contiennent des tables, des vues, des volumes, des modèles IA et des fonctions. Les schémas organisent les données et les ressources d’IA en catégories logiques plus granulaires que les catalogues. En règle générale, un schéma représente un seul cas d’utilisation, projet ou bac à sable d’équipe. Découvrez quels sont les schémas dans Azure Databricks ?.
Niveau trois :
- Les volumes sont des volumes logiques de données non structurées et non tabulaires dans le stockage d’objets cloud. Les volumes peuvent être gérés, avec Unity Catalog gérant le cycle de vie complet et la disposition des données dans le stockage, ou externes, avec Unity Catalog gérant l’accès aux données à partir d’Azure Databricks, mais pas la gestion de l’accès aux données dans le stockage cloud à partir d’autres clients. Découvrez quels sont les volumes du catalogue Unity et les différences entre les tables et volumes gérés et externes.
- Les tables sont des collections de données organisées par lignes et colonnes. Les tables peuvent être gérées, avec Unity Catalog gérant le cycle de vie complet de la table ou externe, avec Unity Catalog gérant l’accès aux données à partir d’Azure Databricks, mais pas la gestion de l’accès aux données dans le stockage cloud à partir d’autres clients. Consultez Présentation des tables Azure Databricks et des tables et volumes managés ou externes.
- Les vues sont des requêtes sauvegardées sur une ou plusieurs tables. Voir Qu’est-ce qu’une vue ?.
- Les fonctions sont des unités de logique enregistrée qui retournent une valeur scalaire ou un ensemble de lignes. Consultez les fonctions définies par l’utilisateur (UDF) dans le catalogue Unity.
- Les modèles sont des modèles IA empaquetés avec MLflow et inscrits dans le catalogue Unity en tant que fonctions. Consultez Gérer le cycle de vie du modèle dans le catalogue Unity.
L’utilisation d’objets de base de données dans le catalogue Unity est très similaire à celle des objets de base de données inscrits dans un metastore Hive, à l’exception qu’un metastore Hive n’inclut pas de catalogues dans l’espace de noms d’objet. Vous pouvez utiliser la syntaxe ANSI bien connue pour créer des objets de base de données, gérer les objets de base de données, gérer les autorisations et utiliser les données dans Unity Catalog. Vous pouvez également créer des objets de base de données, gérer les objets de base de données et gérer les autorisations sur les objets de base de données à l’aide de l’interface utilisateur de Catalog Explorer.
Pour plus d’informations, consultez Les objets de base de données dans Azure Databricks et Utiliser Unity Catalog et le metastore Hive hérité.
Outre les objets de base de données et les ressources d’IA contenus dans les schémas, Unity Catalog régit également l’accès aux données à l’aide des objets sécurisables suivants :
- Informations d’identification du service, qui encapsulent des informations d’identification cloud à long terme qui fournissent l’accès à un service externe. Consultez Créer des informations d’identification de service.
- Informations d’identification de stockage, qui encapsulent des informations d’identification cloud à long terme qui permettent d’accéder au stockage cloud. Consultez Créer des informations d’identification de stockage pour la connexion à Azure Data Lake Storage.
- Emplacements externes, qui contiennent une référence à des informations d’identification de stockage et un chemin de stockage cloud. Les emplacements externes peuvent être utilisés pour créer des tables externes ou pour affecter un emplacement de stockage managé pour les tables et volumes managés. Consultez Créer un emplacement externe pour connecter le stockage cloud à Azure Databricks, isolation des données à l’aide du stockage managé et spécifier un emplacement de stockage managé dans le catalogue Unity.
- Connexions, qui représentent des informations d’identification qui donnent un accès en lecture seule à une base de données externe dans un système de base de données tel que MySQL à l’aide de Lakehouse Federation. Consultez Lakehouse Federation et le catalogue Unity et Qu'est-ce que Lakehouse Federation ?.
- Salles propres, qui représentent un environnement géré par Databricks où plusieurs participants peuvent collaborer sur des projets sans partager les données sous-jacentes entre elles. Voir Qu’est-ce qu’Azure Databricks Clean Rooms ?.
- Partages, qui sont des objets Delta Sharing qui représentent une collection en lecture seule de données et de ressources IA qu’un fournisseur de données partage avec un ou plusieurs destinataires.
- Les Destinataires, qui sont des objets Delta Sharing représentant l’entité qui reçoit les partages d’un fournisseur de données.
- Fournisseurs, qui sont des objets Delta Sharing qui représentent une entité qui partage des données avec un destinataire.
Pour plus d’informations sur les objets sécurisables Delta Sharing, consultez Qu’est-ce que le partage Delta ?.
Octroi et révocation d’accès à des objets de base de données et autres objets sécurisables dans Unity Catalog
Vous pouvez accorder et révoquer l’accès aux objets sécurisables à n’importe quel niveau de la hiérarchie, y compris le metastore lui-même. L’accès à un objet accorde implicitement le même accès à tous les enfants de cet objet, sauf si l’accès est révoqué.
Vous pouvez utiliser les commandes SQL ANSI classiques pour accorder et révoquer l’accès aux objets dans Unity Catalog. Par exemple :
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Vous pouvez également utiliser Catalog Explorer, l’interface CLI Databricks et les API REST pour gérer les autorisations d’objets.
Pour savoir comment gérer les privilèges dans le catalogue Unity, consultez Gérer les privilèges dans le catalogue Unity.
Unity Catalog opère selon principe du privilège minimum, à savoir que les utilisateurs disposent de l’accès minimum nécessaire pour effectuer leurs tâches requises. Lorsqu’un espace de travail est créé, les utilisateurs non administrateurs n’ont accès qu’au catalogue d’espaces de travail approvisionné automatiquement, ce qui permet aux utilisateurs d’essayer le processus de création et d’accès aux objets de base de données dans le catalogue Unity. Consultez les privilèges du catalogue d’espaces de travail.
Par défaut, les administrateurs d’espace de travail et les administrateurs de compte disposent de privilèges supplémentaires. L’administrateur de metastore est un rôle facultatif, requis si vous souhaitez gérer le stockage de tables et de volumes au niveau du metastore, et pratique si vous souhaitez gérer les données de manière centralisée sur plusieurs espaces de travail d’une région. Pour plus d’informations, consultez Privilèges d’administrateur dans le catalogue Unity et (facultatif) Attribuer le rôle d’administrateur metastore.
Les tables et les volumes peuvent être managés ou externes.
- Les tables managées sont entièrement gérées par Unity Catalog, ce qui signifie que Unity Catalog gère à la fois la gouvernance et les fichiers de données sous-jacents pour chaque table managée. Les tables managées sont stockées à un emplacement managé par Unity Catalog dans votre stockage cloud. Les tables managées utilisent toujours le format Delta Lake. Vous pouvez stocker les tables managées au niveau du metastore, du catalogue ou du schéma.
- Les tables externes sont des tables dont l’accès à partir d’Azure Databricks est géré par Unity Catalog, mais dont le cycle de vie des données et la disposition des fichiers sont gérés à l’aide de votre fournisseur de cloud et d’autres plateformes de données. En règle générale, les tables externes servent à inscrire de grandes quantités de données existantes dans Azure Databricks ou sont également utilisées si vous avez besoin d’un accès en écriture aux données à l’aide d’outils extérieurs à Azure Databricks. Les tables externes sont prises en charge dans plusieurs formats de données. Une fois qu’une table externe est inscrite dans un metastore Unity Catalog, vous pouvez gérer et auditer l’accès d’Azure Databricks à celle-ci (et l’utiliser) comme vous le feriez avec des tables managées.
- Les volumes managés sont entièrement gérés par Unity Catalog, ce qui signifie que Unity Catalog gère l’accès à l’emplacement de stockage du volume dans votre compte de fournisseur de cloud. Lorsque vous créez un volume managé, il est automatiquement stocké dans l’emplacement de stockage managé affecté au schéma conteneur.
- Les volumes externes représentent des données existantes dans des emplacements de stockage gérés en dehors d’Azure Databricks, mais inscrits dans Unity Catalog pour contrôler et auditer l’accès à partir d’Azure Databricks. Lorsque vous créez un volume externe dans Azure Databricks, vous spécifiez son emplacement, qui doit se trouver sur un chemin défini dans un emplacement externe du catalogue Unity.
Databricks recommande les tables et les volumes managés pour tirer pleinement parti des fonctionnalités de gouvernance et des optimisations de performances de Unity Catalog.
Consultez les tables managées du catalogue Unity dans Azure Databricks pour Delta Lake et Apache Iceberg, Travailler avec des tables externes et Volumes managés vs externes.
Votre organisation peut exiger que certains types de données soient stockés dans des comptes ou compartiments spécifiques dans votre locataire cloud.
Unity Catalog permet de configurer des emplacements de stockage au niveau du metastore, du catalogue ou du schéma pour répondre à ces exigences. Le système évalue la hiérarchie des emplacements de stockage du schéma au catalogue, puis au metastore.
Par exemple, supposons que votre organisation dispose d’une stratégie de conformité d’entreprise qui nécessite des données de production relatives aux ressources humaines pour résider dans le conteneur abfss://mycompany-.hr-prod@storage-account.dfs.core.windows.net Dans le catalogue Unity, vous pouvez obtenir cette exigence en définissant un emplacement au niveau du catalogue, en créant un catalogue appelé, par exemple hr_prod
, et en lui affectant l’emplacement abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Cela signifie que les tables ou volumes gérés créés dans le catalogue hr_prod
(par exemple, à l'aide de CREATE TABLE hr_prod.default.table …
) stockent leurs données dans abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Si vous le souhaitez, vous pouvez choisir de fournir des emplacements au niveau du schéma pour organiser les données dans hr_prod catalog
à un niveau plus granulaire.
Si l’isolation du stockage n’est pas exigée pour certains catalogues, vous pouvez éventuellement définir un emplacement de stockage au niveau du metastore. Cet emplacement sert d’emplacement par défaut pour les tables managées et les volumes dans les catalogues et les schémas qui n’ont pas de stockage affecté. Cependant, Databricks vous recommande généralement d’attribuer des emplacements de stockage managés distincts pour chaque catalogue.
Pour plus d’informations, consultez Spécifier un emplacement de stockage managé dans Unity Catalog et Les données sont physiquement séparés dans le stockage.
Par défaut, les propriétaires de catalogue (et les administrateurs de metastore, s’ils sont définis pour le compte) peuvent rendre un catalogue accessible aux utilisateurs dans plusieurs espaces de travail attachés au même metastore Unity Catalog. Cependant, si vous utilisez des espaces de travail pour isoler l’accès aux données utilisateur, vous avez peut-être intérêt à limiter l’accès au catalogue à des espaces de travail spécifiques dans votre compte, afin de garantir que certains types de données ne soient traités que dans ces espaces de travail. Vous pouvez souhaiter disposer d’espaces de travail de production et de développement distincts, par exemple, ou d’un espace de travail distinct pour le traitement des données sensibles. Il s’agit de la liaison catalogue-espace de travail. Consultez Limiter l’accès au catalogue à des espaces de travail spécifiques.
Notes
Pour une isolation accrue des données, vous pouvez également lier l’accès au stockage cloud et l’accès au service cloud à des espaces de travail spécifiques. Voir (Facultatif) Affecter des informations d’identification de stockage à des espaces de travail spécifiques, (Facultatif) Affecter un emplacement externe à des espaces de travail spécifiques et (Facultatif) Affecter des informations d’identification de service à des espaces de travail spécifiques.
Unity Catalog capture un journal d’audit des actions effectuées au niveau du metastore, ce qui permet aux administrateurs d’accéder à des détails très fins sur les personnes ayant accédé à un jeu de données déterminé et les actions qu’ils ont effectuées.
Vous pouvez accéder aux journaux d’audit de votre compte à l’aide de tables système gérées par le catalogue Unity.
Consultez Auditer les événements Unity Catalog, Événements Unity Catalog et Surveiller l’activité du compte avec les tables système.
Vous pouvez utiliser le Catalogue Unity pour capturer la traçabilité des données de runtime entre les requêtes dans n’importe quel langage exécuté sur un cluster Azure Databricks ou un entrepôt SQL. La traçabilité est capturée jusqu’au niveau de la colonne, et inclut les notebooks, les travaux et les tableaux de bord liés à la requête. Pour en savoir plus, consultez Afficher la traçabilité des données à l’aide du catalogue Unity.
Lakehouse Federation est la plateforme de fédération de requêtes pour Azure Databricks. La fédération de requêtes décrit une collection de fonctionnalités qui permettent aux utilisateurs et aux systèmes d’exécuter des requêtes sur plusieurs sources de données en silo sans avoir à migrer toutes les données vers un système unifié.
Azure Databricks utilise Unity Catalog pour gérer la fédération des requêtes. Utilisez le catalogue Unity pour configurer des connexions en lecture seule aux systèmes de base de données externes populaires et créer des catalogues étrangers qui reflètent les bases de données externes. Les outils de gouvernance des données et de traçabilité des données de Unity Catalog garantissent que l’accès aux données est géré et audité pour toutes les requêtes fédérées effectuées par les utilisateurs dans vos espaces de travail Azure Databricks.
Voir Qu’est-ce que la fédération Lakehouse ?.
Delta Sharing est une plateforme de partage de données sécurisée qui vous permet de partager des données et des ressources IA avec des utilisateurs externes à votre organisation, que ces utilisateurs utilisent Ou non Databricks. Bien que le partage Delta soit disponible en tant qu’implémentation open source, dans Databricks, il exige que Unity Catalog tire pleinement parti des fonctionnalités étendues. Voir Qu’est-ce que le partage Delta ?.
Databricks Marketplace est un forum ouvert dédié à l’échange de produits de données, qui repose sur Delta Sharing. À ce titre, vous devez disposer d’un espace de travail compatible avec Unity Catalog pour pouvoir être fournisseur de la Marketplace. Voir Qu’est-ce que Databricks Marketplace ?.
Pour utiliser Unity Catalog, votre espace de travail Azure Databricks doit être activé pour Unity Catalog, ce qui signifie que l’espace de travail est attaché à un metastore Unity Catalog.
Comment un espace de travail est-il attaché à un metastore ? Cela dépend du compte et de l’espace de travail :
- En règle générale, lorsque vous créez un espace de travail Azure Databricks dans une région pour la première fois, le metastore est créé automatiquement et attaché à l’espace de travail.
- Pour certains comptes anciens, un administrateur de compte doit créer le metastore et affecter les espaces de travail de cette région au metastore. Pour obtenir des instructions, consultez Créer un metastore de catalogue Unity.
- Si un compte dispose déjà d’un metastore affecté pour une région, un administrateur de compte peut décider s’il faut attacher automatiquement le metastore à tous les nouveaux espaces de travail de cette région. Consultez Activer l’attribution automatique d’un metastore à de nouveaux espaces de travail.
Que votre espace de travail ait été activé automatiquement ou non pour Unity Catalog, les étapes suivantes sont également nécessaires pour commencer à utiliser Unity Catalog :
- Création de catalogues et de schémas en vue d’accueillir les objets de base de données comme les tables et les volumes.
- Création d’emplacements de stockage managés pour stocker les tables et les volumes managés dans ces catalogues et schémas.
- Octroi d’un accès utilisateur aux catalogues, schémas et objets de base de données.
Les espaces de travail qui sont automatiquement activés pour le catalogue Unity approvisionnent un catalogue d’espaces de travail avec des privilèges étendus accordés à tous les utilisateurs de l’espace de travail. Ce catalogue est un point de départ pratique pour essayer Unity Catalog.
Pour obtenir des instructions d’installation détaillées, consultez Configurer et gérer le catalogue Unity.
Si vous disposez d’un ancien espace de travail et que vous l’avez récemment activé pour Unity Catalog, il est probable que vos données sont managées par le metastore Hive hérité. Vous pouvez utiliser ces données en même temps que les données inscrites dans le catalogue Unity, mais Databricks vous recommande de migrer les données dans votre metastore Hive vers le catalogue Unity dès que possible pour tirer parti des fonctionnalités de gouvernance et des performances supérieures de Unity Catalog.
La migration passe par les étapes suivantes :
- Convertissez tous les groupes locaux d’espace de travail en groupes au niveau du compte. Unity Catalog centralise la gestion des identités au niveau du compte. Consultez Migrer des groupes locaux d’espace de travail vers des groupes de comptes.
- Migrez les tables et les vues gérées dans le metastore Hive vers le catalogue Unity. Consultez Mettre à niveau les tables et les vues Hive vers Unity Catalog.
- Mise à jour des requêtes et des travaux pour faire référence aux nouvelles tables Unity Catalog à la place des anciennes tables du metastore Hive.
- Désactivez le metastore Hive. Consultez Désactiver l’accès au metastore Hive utilisé par votre espace de travail Azure Databricks.
Les recommandations suivantes peuvent vous aider à gérer une migration :
- UCX, qui est un projet Databricks Labs, propose des outils qui vous aident à mettre à niveau votre espace de travail non Unity Catalog vers Unity Catalog. UCX est un bon choix pour les migrations à grande échelle. Consultez Utiliser les utilitaires UCX pour mettre à niveau votre espace de travail vers le catalogue Unity.
- La fédération de metastore Hive permet au catalogue Unity de régir les tables stockées dans un metastore Hive. Il vous permet de continuer à utiliser des charges de travail qui référencent des tables de metastore Hive pendant la transition vers le catalogue Unity. Consultez la fédération du Metastore Hive : activez le Catalogue Unity pour régir les tables inscrites dans un Metastore Hive.
- Si vous avez un nombre limité de tables à migrer, Azure Databricks met à votre disposition un Assistant doté d’une interface utilisateur ainsi que les commandes SQL. Consultez Mettre à niveau les tables et les vues Hive vers Unity Catalog.
Unity Catalog exige certains types de calcul et de formats de fichiers, dont vous trouverez la description ci-dessous. De même, vous trouverez ensuite mention de certaines fonctionnalités Azure Databricks qui ne sont pas entièrement prises en charge dans Unity Catalog sur toutes les versions de Databricks Runtime.
Toutes les régions prennent en charge Unity Catalog. Pour plus d’informations, consultez les régions Azure Databricks.
Unity Catalog est pris en charge sur les clusters qui exécutent Databricks Runtime 11.3 LTS ou version ultérieure. Le catalogue Unity est pris en charge par défaut sur toutes les versions de calcul de l’entrepôt SQL .
Les clusters s’exécutant sur des versions antérieures de Databricks Runtime ne prennent pas en charge toutes les fonctionnalités et fonctionnalités d’Unity Catalog GA.
Pour accéder aux données dans le catalogue Unity, les clusters doivent être configurés avec le mode d’accès approprié. Unity Catalog est sécurisé par défaut. Si un cluster n’est pas configuré avec le mode d’accès standard ou dédié, le cluster ne peut pas accéder aux données dans le catalogue Unity. Consultez les modes d’accès.
Pour plus d’informations sur les modifications des fonctionnalités du catalogue Unity dans chaque version de Databricks Runtime, consultez les notes de publication.
Les limitations de Unity Catalog varient selon le mode d’accès et la version de Databricks Runtime. Consultez les limitations du mode d’accès au calcul pour le catalogue Unity.
Unity Catalog prend en charge les formats de tableau suivants :
-
Les tables managées doivent utiliser le format de
delta
tableau. -
Les tables externes peuvent utiliser
delta
,CSV
JSON
avro
parquet
ORC
ou .text
Unity Catalog présente les limitations suivantes. Certaines d’entre elles sont propres aux anciennes versions de Databricks Runtime et aux modes d’accès au calcul.
Les charges de travail Structured Streaming présentent d’autres limitations, qui dépendent de Databricks Runtime et du mode d’accès. Consultez les limitations du mode d’accès au calcul pour le catalogue Unity.
Databricks publie régulièrement de nouvelles fonctionnalités qui réduisent cette liste.
- Les groupes créés antérieurement dans un espace de travail (c’est-à-dire, des groupes au niveau de l’espace de travail) ne peuvent pas être utilisés dans les instructions
GRANT
de Unity Catalog. Cela permet d’obtenir une vue cohérente des groupes qui peuvent s’étendre sur plusieurs espaces de travail. Pour utiliser des groupes dans les instructionsGRAN
T, créez vos groupes au niveau du compte et mettez à jour toute automatisation dédiée à la gestion des principaux ou des groupes (comme les connecteurs SCIM, Okta et Microsoft Entra ID, et Terraform) afin de référencer les points de terminaison du compte au lieu des points de terminaison de l’espace de travail. Consultez Sources de groupe. - Les charges de travail en langage R ne prennent pas en charge les vues dynamiques dans le cadre de la sécurité au niveau des lignes ou des colonnes sur un calcul exécutant Databricks Runtime 15.3 et les versions antérieures.
Utilisez une ressource de calcul dédiée exécutant Databricks Runtime 15.4 LTS ou une version ultérieure pour les charges de travail dans R qui interrogent des vues dynamiques. Ces charges de travail nécessitent également un espace de travail qui supporte le calcul sans serveur. Pour plus d’informations, consultez Contrôle d’accès affiné sur le calcul dédié.
Les clones superficiels ne sont pas pris en charge dans Unity Catalog sur l'infrastructure de calcul exécutant Databricks Runtime 12.2 LTS et les versions inférieures. Vous pouvez utiliser les clones superficiels pour créer des tables managées sur Databricks Runtime 13.3 LTS et versions supérieures. Vous ne pouvez pas les utiliser pour créer des tables externes, quelle que soit la version de Databricks Runtime. Voir Shallow Clone pour les tables de Unity Catalog.
Le compartimentage n’est pas pris en charge pour les tables Unity Catalog. Si vous exécutez des commandes qui tentent de créer une table compartimentée dans Unity Catalog, une exception est levée.
Écrire dans le même chemin ou dans la même table Delta Lake depuis des espaces de travail situés dans plusieurs régions peut entraîner une performance peu fiable si certains clusters accèdent à Unity Catalog et d'autres non.
Manipulation de partitions pour des tables externes à l’aide de commandes telles que
ALTER TABLE ADD PARTITION
qui nécessite l’activation de la journalisation des métadonnées de partition. Consultez Découverte de partition pour les tables externes.Lorsque vous utilisez le mode de remplacement pour les tables non au format Delta, l’utilisateur doit avoir le CREATE TABLE privilège sur le schéma parent et doit être le propriétaire de l’objet existant OU avoir le privilège MODIFY sur l’objet.
Les UDF Python ne sont pas prises en charge dans Databricks Runtime 12.2 LTS et versions inférieures. Cela englobe les fonctions UDAF, UDTF et Pandas sur Spark (
applyInPandas
etmapInPandas
). Les fonctions UDF scalaires Python sont prises en charge dans Databricks Runtime 13.3 LTS et versions supérieures.Les fonctions définies par l’utilisateur Scala ne sont pas prises en charge dans Databricks Runtime 14.1 et versions antérieures avec le mode d’accès standard. Les fonctions définies par l’utilisateur scalaires Scala sont prises en charge dans Databricks Runtime 14.2 et versions ultérieures avec le mode d’accès standard.
Les pools de threads Scala standard ne sont pas pris en charge. En lieu et place, utilisez les pools de threads spéciaux dans
org.apache.spark.util.ThreadUtils
, par exemple,org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool
. Toutefois, les pools de threads suivants dansThreadUtils
ne sont pas pris en charge :ThreadUtils.newForkJoinPool
et tout pool de threadsScheduledExecutorService
.
- La journalisation d’audit est prise en charge pour les événements Unity Catalog au niveau de l’espace de travail uniquement. Les événements qui se produisent au niveau du compte sans référence à un espace de travail, tels que la création d’un metastore, ne sont pas journalisés.
Les modèles inscrits dans Unity Catalog présentent d’autres limitations. Voir Limitations.
Unity Catalog applique des quotas de ressources sur tous les objets sécurisables. Ces quotas sont répertoriés dans les limites des ressources. Si vous prévoyez de dépasser ces limites de ressources, contactez l’équipe de votre compte Azure Databricks.
Vous pouvez surveiller l’utilisation de vos quotas à l’aide des API de quotas de ressources d’Unity Catalog. Consultez Surveiller votre utilisation des quotas de ressources du catalogue Unity.