Estamos empolgados em apresentar um novo aprimoramento na experiência de pesquisa em Catálogo da Amazon Sagemakerparte da próxima geração de Amazon Sagemaker– Pesquisa de correspondência EXACTA usando identificadores técnicos. Com esse recurso, agora você pode executar pesquisas altamente direcionadas por ativos como nomes de colunas, nomes de tabela, nomes de banco de dados e Amazon Redshift Nomes de esquema, envolvendo termos de pesquisa em um qualificador, como citações duplas (" "). Isso produz resulta com precisão exata, melhorando drasticamente a velocidade e a precisão da descoberta de dados.

Neste post, demonstramos como otimizar a descoberta de dados com pesquisa precisa do identificador técnico em Amazon Sagemaker Unified Studio.

Resolvendo desafios de descoberta no mundo real

Em ambientes grandes e em escala corporativa, descobrir o conjunto de dados certo geralmente depende de identificação técnica específica. Usuários frequentemente pesquisam termos exatos como "customer_id" ou "sales_summary_2023" – Mas as palavras -chave convencionais e as pesquisas semânticas geralmente retornam resultados relacionados, em vez da correspondência exata.

Com a nova capacidade de pesquisa qualificada, entrando "customer_id" Aparecerá apenas aqueles ativos cujo nome técnico corresponde exatamente – eliminando ruído, economizando tempo e melhorando a confiança na descoberta. Seja você um analista de dados que busca uma métrica específica ou uma conformidade com os metadados validando a administração de dados, esta atualização oferece uma experiência de pesquisa mais precisa, governada e intuitiva.

Construído para catálogos complexos e de alta escala

Esse recurso se baseia nos recursos de pesquisa -chave e semântica existentes no Sagemaker Unified Studio e adiciona uma importante camada de controle para clientes que gerenciam catálogos de dados complexos com convenções de nomeação complexas. Ao reduzir o tempo gasto filtrando correspondências parciais e melhorando a relevância dos resultados, esse aprimoramento simplifica os fluxos de trabalho e ajuda a manter a qualidade dos metadados entre os domínios.

Um desses clientes é a NatWest, um líder bancário global que opera em milhares de ativos:

“Em nosso complexo ecossistema de dados, a descoberta dos ativos certos rapidamente é fundamental. Em um ambiente bancário orientado a dados, os novos recursos de pesquisa de correspondência exata e parcial em Sagemaker Unified Studio/Amazon DatazOne foram transformadores. Ao ativar a descoberta de que os atributos de empréstimos e os dados de dados são ativos. Através da complexidade, reduz o tempo de pesquisa, minimiza erros e promove a colaboração sem precedentes em nossas equipes de engenharia, análise e negócios de dados. ”

– Manish Mittal, Líder de Engenharia do Marketplace de Dados, NatWest

Principais benefícios

Com esse novo recurso, os usuários do catálogo de sagemaker podem:

  • Localize rapidamente ativos de dados precisos – Pesquise usando nomes técnicos conhecidos – como "customer_id" ou "revenue_code" – para superfície imediatamente os conjuntos de dados corretos sem peneirar resultados irrelevantes.
  • Reduzir falsos positivos e correspondências ambíguas – Aliviar a confusão causada por palavras -chave ou pesquisas semânticas que retornam resultados pouco correspondentes, melhorando a confiança na experiência de pesquisa.
  • Acelerar a produtividade entre as funções de dados – Analistas, comissários e engenheiros podem encontrar o que precisam mais rapidamente – reduzindo atrasos nos ciclos de relatórios, validação e desenvolvimento.
  • Fortalecer a governança e conformidade – superfície e validar convenções críticas de nomeação e padrões de metadados (por exemplo, colunas prefixadas com "pii_" ou "audit_" retornará todos os nomes de colunas que começam com PII ou auditoria) para apoiar a aplicação da política e a prontidão para auditar.

Exemplo de uso de casos

Esse recurso pode ajudar as seguintes funções em diferentes casos de uso:

  • Analistas de dados – um analista de negócios que prepara um relatório de análise de margem pesquisando "profit_margin" Para localizar o campo exato em vários conjuntos de dados de vendas. Isso reduz o tempo para a visão e garante que a métrica certa seja usada nos relatórios.
  • Dados comissários de dados – Um líder de governança procura termos como "audit_log" ou "classified_pii" Para confirmar que todas as classificações e convenções de madeira necessárias estão em vigor. Isso ajuda a aplicar políticas de manuseio de dados e validar a saúde do catálogo.
  • Engenheiros de dados – Um engenheiro de plataforma executa uma pesquisa por "temp_" ou "backup_" Para identificar e limpar os ativos não utilizados ou herdados criados durante os fluxos de trabalho de extrato, transformação e carga (ETL). Isso suporta a higiene de dados e a otimização de custos de infraestrutura.

Demoção da solução

Para demonstrar a solução exata do filtro de correspondência, ingerimos um ativo individual carregado do TPC-DS tabelas e também criou o grupo de ativos de produtos de dados.

A captura de tela a seguir mostra um exemplo do produto de dados.

A captura de tela a seguir mostra um exemplo dos ativos individuais.

Em seguida, o analista de dados deseja pesquisar todos os ativos que possuem detalhes de login do cliente. O login do cliente é armazenado como o "c_login" campo nos ativos.

Com o recurso de identificador técnico, o analista de dados pesquisa diretamente o catálogo com o identificador "c_login" Para obter os resultados necessários, conforme mostrado na captura de tela a seguir.

O analista de dados pode verificar se as informações de login estão presentes no resultado retornado.

Conclusão

A adição de pesquisa precisa do identificador técnico no Sagemaker Unified Studio reforça um passo para melhorar a descoberta de dados e a usabilidade em ecossistemas de dados complexos. Ao fornecer recursos de pesquisa com base em identificadores técnicos, esse recurso atende às necessidades de diversas partes interessadas, permitindo que eles localizem com eficiência os ativos necessários.

À medida que os dados continuam a crescer em escala e complexidade, o Sagemaker Unified Studio continua comprometido em fornecer recursos que simplificam o gerenciamento de dados, melhoram a produtividade e permitem que as organizações desbloqueie informações acionáveis. Comece a usar esse recurso aprimorado de pesquisa hoje e experimente a diferença que ela traz para sua jornada de descoberta de dados.

Consulte o Documentação do produto Para saber mais sobre como configurar as regras de metadados para assinatura e publicação de fluxos de trabalho.


Sobre os autores

Ramesh H Singh é um gerente sênior de produtos técnicos (serviços externos) da AWS em Seattle, Washington, atualmente com a equipe da Amazon Sagemaker. Ele é apaixonado por construir produtos de ML/AI e análise de alto desempenho que permitem que os clientes corporativos atinjam suas metas críticas usando tecnologia de ponta. Conecte -se a ele LinkedIn.

PRADEEP MISRA PICPradeep Misra é um arquiteto principal da Analytics Solutions da AWS. Ele trabalha em toda a Amazon para arquitetar e projetar soluções de análise distribuída moderna e plataforma AI/ML. Ele é apaixonado por resolver os desafios dos clientes usando dados, análises e IA/ml. Fora do trabalho, Pradeep gosta de explorar novos lugares, experimentar novas cozinhas e jogar jogos de tabuleiro com sua família. Ele também gosta de fazer experimentos científicos, construir Legos e assistir anime com suas filhas.

Rajat Mathur é gerente de desenvolvimento de software da AWS, liderando as equipes de engenharia de estúdio da Amazon Datazone e Sagemaker Unified Studio. Sua equipe projeta, constrói e opera serviços que o tornam mais rápido e mais fácil para os clientes catalogar, descobrir, compartilhar e governar dados. Com profunda experiência na criação de sistemas de dados distribuídos em escala, Rajat desempenha um papel fundamental no avanço da análise de dados da AWS e nos recursos de IA/ML.

Jie Lan é um engenheiro de software da AWS com sede em Nova York, onde trabalha na equipe de sagema do Amazon. Ele é apaixonado por desenvolver soluções de ponta no espaço de big data e IA, ajudando os clientes a aproveitar a tecnologia em nuvem para resolver problemas complexos.