Estamos empolgados com anunciar que a capacidade de acessar os dados do AWS S3 no Azure Databricks através Catálogo de unidades Para ativar a governança de dados de nuvem cruzada, geralmente está disponível. Como a única solução de governança unificada e aberta do setor para todos os dados e ativos de IA, o catálogo de unidades capacita as organizações a governar dados onde quer que vive, garantindo segurança, conformidade e interoperabilidade entre as nuvens. Com esta versão, as equipes podem configurar e consultar diretamente os dados da AWS S3 do Azure Databricks sem precisar migrar ou copiar conjuntos de dados. Isso facilita a padronização de políticas, controles de acesso e auditoria nos ADLs e no armazenamento S3.
Neste blog, abordaremos dois tópicos principais:
- Como o catálogo da unidade permite a governança de dados de nuvem cruzada
- Como acessar e trabalhar com dados AWS S3 do Azure Databricks
O que é governança de dados de nuvem cruzada no catálogo de unidades?
À medida que as empresas adotam arquiteturas híbridas e transversais, elas geralmente enfrentam controles de acesso fragmentados, políticas de segurança inconsistentes e processos de governança duplicados. Essa complexidade aumenta o risco, aumenta os custos operacionais e retarda a inovação.
A governança de dados de nuvem cruzada com o Catálogo de Unidades simplifica isso, estendendo um único modelo de permissão, aplicação de políticas centralizadas e auditoria abrangente entre dados armazenados em várias nuvens, como AWS S3 e Azure Lake Storage, todos gerenciados na plataforma Databricks.
Os principais benefícios de alavancar a governança de dados de nuvem cruzada no catálogo de unidades incluem:
- Governança unificada – Gerenciar políticas de acesso, controles de segurança e padrões de conformidade de um lugar sem manipular sistemas em silêncio
- Acesso de dados sem atrito – Descubra, consulte e analise com segurança os dados entre as nuvens em um único espaço de trabalho, eliminando silos e reduzindo a complexidade
- Segurança e conformidade mais fortes – Ganhe visibilidade centralizada, marcação, linhagem, classificação de dados e auditoria em todo o seu armazenamento em nuvem
Ao preencher a governança nas nuvens, o Catálogo de Unidades oferece às equipes uma interface única e segura para gerenciar e maximizar o valor de todos os seus dados e ativos de IA – onde quer que eles morem.
Como funciona
Anteriormente, ao usar o Azure Databricks, o Catálogo da Unity suportou apenas locais de armazenamento nas ADLs. Isso significava que, se você possui dados armazenados em um balde AWS S3, mas precisará acessar e processá-los com o catálogo de unidades nos bancos de dados do Azure, a abordagem tradicional exigiria extração, transformação e carregamento (ETL) que os dados em um contêiner ADLS-um processo que é dispendioso e demorado. Isso também aumenta o risco de manter cópias duplicadas e desatualizadas de dados.
Com este lançamento do GA, agora você pode configurar um local externo de nuvem cruzada S3 diretamente do catálogo da Unity no Azure Databricks. Isso permite que você leia e governe perfeitamente seus dados S3 sem migração ou duplicação.
Você pode configurar o acesso ao seu balde AWS S3 em algumas etapas fáceis:
- Configure sua credencial de armazenamento e crie um local externo. Depois que seus recursos do AWS IAM e S3 forem provisionados, você poderá criar sua credencial de armazenamento e localização externa diretamente no Azure Databricks Catalog Explorer.
- Para criar sua credencial de armazenamento, navegue para Credenciais dentro do catálogo Explorer. Selecione a função da AWS IAM (somente leitura), preencha os campos necessários e adicione o trecho da política de confiança quando solicitado.
- Para criar um local externo, navegue para Locais externos dentro do catálogo Explorer. Em seguida, selecione a credencial que você acabou de configurar e concluir os detalhes restantes.
- Para criar sua credencial de armazenamento, navegue para Credenciais dentro do catálogo Explorer. Selecione a função da AWS IAM (somente leitura), preencha os campos necessários e adicione o trecho da política de confiança quando solicitado.
- Aplicar permissões. Na página Credenciais do Catalog Explorer, agora você pode ver seus dados ADLs e S3 juntos em um só lugar no Azure Databricks. A partir daí, você pode aplicar permissões consistentes nos dois sistemas de armazenamento.
3. Comece a consultar! Você está pronto para consultar seus dados S3 diretamente do espaço de trabalho do Azure Databricks.
O que é apoiado no lançamento do GA?
Com o GA, agora apoiamos o acesso a tabelas e volumes externos no S3 do Azure Databricks. Especificamente, os seguintes recursos agora são suportados em uma capacidade somente leitura:
- AWS IAM CREdenciais de armazenamento de papéis
- S3 Locais externos
- S3 Tabelas externas
- S3 Volumes externos
- S3 dbutils.fs Access
- Delta Compartilhamento de dados S3 da UC no Azure
Começando
Para experimentar a governança de dados de nuvem cruzada no Azure Databricks, confira nossa documentação sobre como configurar Credenciais de armazenamento para papéis de IAM Para armazenamento S3 no Azure Databricks. É importante observar que seu provedor de nuvem pode cobrar taxas pelo acesso a dados externos aos seus serviços em nuvem. Para começar com o catálogo da Unity, siga nosso guia de catálogo de unidades para Azure.
Junte -se à equipe de engenharia e produto do catálogo da Unity na Data + AI Summit, de 9 a 12 de junho no Moscone Center em San Francisco! Dê uma primeira olhada nas últimas inovações em dados e governança de IA. Registre -se agora para garantir seu lugar!
Leave a Reply