Acelere a criação de pipeline de dados com a nova interface visual na ingestão do Amazon OpenEarch

Amazon OpenEarch Ingestion é um pipeline sem servidor totalmente gerenciado que permite ingerir, filtrar, transformar, enriquecer e rotear dados para um Amazon OpenSearch Service domínio ou Amazon OpenSearch Sem servidor coleção. A ingestão do OpenEarch é capaz de ingerir dados de uma ampla variedade de fontes e possui um rico ecossistema de processadores internos para cuidar de suas necessidades de transformação de dados mais complexas.

Hoje, estamos lançando uma nova interface visual para ingestão de opensearch que simplifica criar e gerenciar seus pipelines de dados a partir do Console de gerenciamento da AWS. Com esse novo recurso, você pode criar dutos em minutos sem escrever configurações complexas manualmente.

A nova interface visual traz três melhorias principais para ajudar a simplificar seu fluxo de trabalho:

Um fluxo de trabalho visual guiado que o leva pela criação de pipeline
Configuração de permissão automática que elimina o manual AWS Identity and Access Management (IAM) Gerenciamento de políticas
Verificações de validação em tempo real que ajudam a capturar problemas mais cedo

Esses aprimoramentos o tornam simples ingerir, transformar, enriquecer e rotear seus dados, esteja você configurando seu primeiro pipeline ou arquiteta os fluxos de trabalho de dados sofisticados com várias transformações e afundamentos.

Nesta postagem, analisamos como esses novos recursos funcionam e como você pode usá -los para acelerar seus projetos de ingestão de dados.

Descoberta automática

Antes da interface visual, a criação de um pipeline de ingestão do OpenEarch começou com a seleção de um plano que fornecia um modelo com os espaços reservados para fontes e afundamentos. Você precisaria modificar manualmente este modelo para atender aos seus requisitos específicos.

A nova interface visual melhora esse processo descobrindo automaticamente suas fontes e afundos à medida que você constrói. Em vez de modificar o código do modelo, você pode simplesmente selecionar os recursos disponíveis nos menus suspensos e assistir à sua configuração de pipeline construir em tempo real.

Esse recurso de descoberta automática elimina a necessidade de alternar entre diferentes consoles de serviço para encontrar seus detalhes de origem e afundamento. Anteriormente, você tinha que navegar para serviços como Amazon Simple Storage Service (Amazon S3) ou Amazon DynamoDB Para copiar os detalhes dos recursos e os valores do nome do recurso da Amazon (ARN), depois volte para inseri -los no seu modelo. Isso mantém você focado no design do seu pipeline, simplificando todo o processo de criação.

Gerenciamento automatizado de função do IAM

Com a criação automática de permissão, você não precisa mais criar manualmente políticas de IAM para seus oleodutos e componentes envolvidos. Com a nova interface do usuário, agora você pode criar uma função iam unificada automaticamente, concedendo as permissões necessárias para todos os componentes do seu pipeline. Isso reduz significativamente a complexidade do gerenciamento de segurança e minimiza o risco de erros relacionados à permissão. Você também pode usar suas funções existentes se já as tiver definido.

Validação em tempo real

A nova interface apresenta recursos de validação em tempo real que vão muito além da verificação básica da sintaxe. Enquanto as versões anteriores validavam apenas a sintaxe da palavra -chave, a nova interface executa sua cadeia de processadores em tempo real, capturando erros de configuração e tempo de execução à medida que você cria. À medida que você constrói seu pipeline, a interface valida continuamente toda a sua configuração, ajudando você a identificar e resolver problemas em potencial, como equívocas de processador, incompatibilidades de tipo de dados ou erros de transformação antes da implantação. Essa abordagem proativa de validação baseada em execução ajuda a garantir que seus dutos funcionem como pretendido desde o início, aliviando a necessidade de esperar até o tempo de execução para descobrir problemas de processamento da cadeia.

Agora que cobrimos os principais recursos, vamos percorrer o processo de criação de um pipeline usando a nova interface.

Crie um oleoduto na ingestão do OpenEarch

Introdução à interface visual é direta – você pode escolher um plano como sua base de pipeline ou começar com uma lista limpa de um modelo em branco. A interface o orienta em cada etapa, usando a descoberta inteligente de recursos e os recursos automáticos da população para simplificar todo o processo de criação. Para esta postagem, usamos o plano “zero-Etl com dynamoDB”.

A interface visual simplifica a configuração de origem, apresentando suas tabelas de dynamoDB em um menu suspenso fácil de navegar. Depois de selecionar uma tabela, a interface lida com todos os detalhes técnicos, incluindo a recuperação e configuração automática do ARN. Essa mesma funcionalidade se estende à configuração de exportação do Amazon S3, onde você pode escolher Procure S3 Para selecionar seu balde e pastas diretamente no fluxo de trabalho de criação de pipeline.

Após a configuração da sua fonte, você pode aprimorar seu pipeline com os processadores para transformar seus dados. O painel de configuração do processador começa com um campo de pesquisa onde você pode encontrar e selecionar o processador necessário. Você pode escolher Adicionar Para incluir os processadores também organize -os na ordem desejada. Essa flexibilidade permite criar fluxos de trabalho complexos de transformação de dados, combinando diferentes processadores na sequência necessária.

Se houver algum problema, como a falta de campos necessários, a interface exibe mensagens de erro claras, permitindo resolver os problemas antes de avançar. Essa validação em cada etapa garante que seu pipeline esteja configurado corretamente antes da implantação.

A captura de tela a seguir mostra um exemplo da interface visual.

Os recursos de validação em tempo real da interface se estendem à configuração do processador, ajudando você a identificar e resolver problemas em potencial antes que eles afetem seu pipeline. A configuração de cada processador é validada à medida que você constrói seu pipeline, com mensagens de erro claras orientando -o para a configuração adequada. Essa abordagem de validação proativa garante que sua lógica de transformação de dados seja sólida antes de passar para o próximo estágio da criação de pipeline.

O Painel de Configuração do Sink oferece flexibilidade na escolha do seu destino OpenEarch. Você pode selecionar entre um cluster gerenciado ou opção sem servidor, dependendo de suas necessidades específicas. Para maior conveniência, integramos a capacidade de criar um novo domínio OpenEarch diretamente a partir dessa interface, simplificando o processo de configuração de tubulação de ponta a ponta.

A configuração do coletor fornece opções para mapeamento dinâmico e personalizado. O mapeamento dinâmico lida automaticamente com a detecção de dados e a criação de mapeamento, enquanto o mapeamento personalizado fornece controle preciso sobre sua estrutura de dados. Para manter a confiabilidade dos dados, você pode ativar uma fila de letras mortas (DLQ)-uma área de retenção de mensagens que não puderam ser processadas com sucesso-para capturar e gerenciar quaisquer eventos com falha.

Ao fazer escolhas na interface visual, as atualizações de configuração YAML/JSON correspondentes em tempo real. Esse feedback imediato ajuda a entender como suas seleções se traduzem em configurações técnicas, desde a nomeação de índices até as opções de mapeamento e configurações avançadas, como tempo limite de descarga e versão do documento.

A configuração de segurança agora é perfeita com o gerenciamento automatizado de função do IAM. A interface lida de maneira inteligente a criação e gerenciamento de permissões em todos os componentes do pipeline. Você pode criar uma nova função de serviço ou usar uma existente, e a interface gera automaticamente uma função unificada do IAM que fornece as permissões precisas necessárias entre os componentes do pipeline – da sua fonte aos componentes da Amazon S3 necessários para o DLQ e o OpenSearch/Amazon S3 Sinks. Essa automação não apenas economiza tempo, mas também reduz o risco de erros relacionados à permissão que podem ocorrer ao gerenciar os controles de acesso em vários recursos. A captura de tela a seguir mostra um exemplo.

Ao consolidar a seleção de recursos em uma única interface, eliminamos a necessidade de navegar entre vários serviços da AWS. Isso economiza tempo e reduz o potencial de erros que podem ocorrer ao copiar manualmente os identificadores de recursos. Depois que um pipeline é criado usando a interface visual, você também pode editar um pipeline usando a mesma interface visual para alterar rapidamente a configuração do pipeline.

Conclusão

A nova interface visual para a ingestão do OpenEarch apresenta fluxos de trabalho visuais guiados que simplificam a criação de pipeline, a descoberta automática de recursos, o gerenciamento automatizado de função do IAM, a validação em tempo real e as visualizações de configuração dinâmica. Esses aprimoramentos otimizam coletivamente o processo de criação de pipeline, reduzem o potencial de erros e fornecem uma experiência mais intuitiva para usuários de todos os níveis de habilidade.

Pronto para começar? Visite o OpenSearch Service Console hoje e comece a criar seu primeiro pipeline visual. Com essa nova interface, você pode transformar seus fluxos de trabalho de ingestão de dados e desbloquear novas idéias de seus dados com mais rapidez e eficiência do que nunca.

Sobre os autores

Sam Selvan é um arquiteto de solução especialista principal do Amazon OpenEarch Service.

Jagadish Kumar (Jag) é um arquiteto de soluções especializadas sênior da AWS focado no serviço de opensearch da Amazon. Ele é profundamente apaixonado pela arquitetura de dados e ajuda os clientes a criar soluções de análise em escala na AWS.