Core Concepts sobre Apache Kafka: Guia Completo para Iniciantes – Cultura Dev

Se você é novo no mundo da tecnologia e programação, com certeza já ouviu falar em Apache Kafka. Trata-se de uma plataforma de streaming distribuído que revolucionou a forma como sistemas lidam com dados em tempo real, alta disponibilidade e escalabilidade. Neste artigo, vamos explorar em detalhes os principais conceitos por trás do Apache Kafka, mostrando, inclusive, um exemplo simples de integração com NestJS para quem já tem familiaridade com essa plataforma Node.js voltada para a construção de aplicativos escaláveis e robustos.

Nosso objetivo é que você saia daqui entendendo não apenas como o Kafka funciona, mas também como começar a aplicar esses conceitos no seu dia a dia de desenvolvimento. Vamos abordar desde a definição de Tópicos, Produtores, Consumidores, Brokers até as estratégias de escalabilidade, alta disponibilidade e boas práticas de uso.

O que é Apache Kafka?

O Apache Kafka é uma plataforma de streaming distribuído criada inicialmente pelo LinkedIn e, posteriormente, doada à Apache Software Foundation. Ele foi desenvolvido para lidar com grandes volumes de dados em tempo real, fornecendo serviços de publicação e assinatura de mensagens em alta escala.

Em termos mais simples, o Kafka atua como um sistema de mensagens (similar a um sistema de fila), mas com recursos avançados de retenção de dados, escalabilidade e segurança. Se, antigamente, as empresas precisavam lidar com dados em lotes (batch) ou armazenar tudo em um banco para posterior análise, o Kafka surgiu para permitir que aplicações reagissem a eventos quase em tempo real.

Para saber mais detalhes técnicos e consultar a documentação oficial, acesse o site do Apache Kafka.

Por que usar o Kafka?

Antes de mergulharmos nos conceitos básicos do Kafka, é fundamental entender por que ele se tornou uma ferramenta tão popular:

Alto Desempenho: O Kafka é capaz de processar milhões de mensagens por segundo, tornando-o ideal para sistemas que precisam lidar com grandes fluxos de dados, como análise de eventos em redes sociais ou sensoriamento de dispositivos IoT.
Escalabilidade Horizontal: Com a adição de novos brokers ao cluster, é possível aumentar a capacidade de processamento praticamente sem interrupções.
Resiliência: Mesmo se ocorrer falha em um ou mais nós do cluster, o Kafka consegue manter suas operações, pois trabalha de forma distribuída e com múltiplas réplicas.
Flexibilidade de Integração: A arquitetura do Kafka permite que novas aplicações ou serviços passem a consumir dados sem grande esforço, promovendo uma integração simples entre sistemas.
Retenção de Dados: Diferentemente de sistemas de mensageria tradicionais (como RabbitMQ), o Kafka armazena dados em disco por um período configurável, o que possibilita o reprocessamento de mensagens.

Principais Conceitos e Componentes

Vamos agora nos aprofundar nos elementos essenciais que compõem o Apache Kafka. Compreender essas partes é o primeiro passo para explorar todo o potencial dessa plataforma.

Tópicos

No Kafka, um tópico é uma categoria ou stream para onde as mensagens são enviadas. Pense em um tópico como um canal onde as mensagens de um determinado tipo ou contexto são publicadas. Por exemplo, você pode ter um tópico chamado transacoes para agrupar todos os eventos relacionados a compras online.

As mensagens são gravadas de forma imutável e são apenas anexadas no final do log do tópico.
Vários produtores podem enviar mensagens para o mesmo tópico e vários consumidores podem ler as mensagens publicadas.

Partições e Offsets

Para garantir escalabilidade e performance, cada tópico é subdividido em partições (partitions). Cada partição é um log ordenado, onde as mensagens recebem um offset — um identificador sequencial que determina a posição da mensagem na partição.

Offset: Indica a posição exata de uma mensagem dentro de uma partição.
Partições permitem que o Kafka processe mensagens em paralelo. Se um tópico tem 3 partições, ele pode ser consumido por até 3 consumidores em paralelo, cada um lendo uma partição específica.

Brokers

Um broker é uma instância individual do Kafka responsável por armazenar e gerenciar os dados das partições de um ou mais tópicos. Em produção, é muito comum ter múltiplos brokers trabalhando em conjunto.

Cada broker também lida com solicitações de conexão vindas de produtores e consumidores e garante a integridade dos dados armazenados. Quando falamos sobre um “cluster de Kafka”, estamos nos referindo a um conjunto de brokers interconectados que compartilham a carga de trabalho.

Clusters

O Kafka é projetado para rodar como um cluster. Isso significa que você terá diversos brokers rodando simultaneamente, cada um com uma parte das partições. Dessa forma, caso um broker caia, outro broker pode assumir suas responsabilidades, garantindo maior tolerância a falhas e disponibilidade do sistema.

Produtores e Consumidores

A arquitetura de publicação e assinatura do Kafka (Pub/Sub) se baseia nos conceitos de Produtor (Producer) e Consumidor (Consumer).

Produtor: Envia (publica) mensagens para um ou mais tópicos no Kafka.
Consumidor: Recebe (subescreve) mensagens de um ou mais tópicos no Kafka.

Consumer Groups são coleções de consumidores que agem como uma única entidade lógica. Ao se inscrever em um tópico, as partições são divididas entre os consumidores desse grupo. Isso permite processar grandes volumes de mensagens em paralelo, garantindo ao mesmo tempo que cada mensagem seja processada apenas uma vez dentro de um determinado grupo.

Streams e Kafka Connect

Além do modelo de Pub/Sub, o Kafka oferece outras ferramentas e recursos avançados:

Kafka Streams: Uma biblioteca para criação de aplicativos de streaming, possibilitando a transformação e o processamento de dados em movimento.
Kafka Connect: Um framework que facilita a integração com diversos sistemas (bancos de dados, sistemas de fila, entre outros). Você consegue, por exemplo, importar dados de um banco de dados relacional para o Kafka sem ter que escrever toda a lógica de integração manualmente.

Para quem precisa manipular dados em tempo real, Kafka Streams pode ser um grande aliado. Ele oferece APIs para map, filter, join e outras operações comuns de transformação de dados, ajudando a criar pipelines complexos de forma simples.

Exemplo Prático com NestJS

Para ilustrar como o Apache Kafka pode ser integrado a um framework Node.js, vamos usar um pequeno exemplo com o NestJS. Este framework, muito utilizado para criar aplicativos escaláveis, possui suporte para diferentes transportes de mensagens, incluindo o Kafka.

Passo 1: Configuração do Projeto

Crie um novo projeto NestJS ou use um projeto existente. Caso vá começar do zero, digite:

npm i -g @nestjs/cli
nest new kafka-demo
cd kafka-demo

Em seguida, vamos instalar as dependências necessárias para trabalhar com o Kafka:

npm install --save @nestjs/microservices kafkajs

Dica: O kafkajs é uma das bibliotecas mais populares para integrar Node.js com o Kafka.

Passo 2: Configurando o Microservice

No NestJS, podemos criar um “microservice” que servirá para enviar e receber mensagens do Kafka.

No arquivo main.ts, adicione a seguinte configuração de microservice:

import { NestFactory } from '@nestjs/core';
import { AppModule } from './app.module';
import { MicroserviceOptions, Transport } from '@nestjs/microservices';

async function bootstrap() {
  const app = await NestFactory.create(AppModule);

  // Configuração do microservice Kafka
  app.connectMicroservice<MicroserviceOptions>({
    transport: Transport.KAFKA,
    options: {
      client: {
        brokers: ['localhost:9092'], // Endereço do broker Kafka
      },
      consumer: {
        groupId: 'meu-grupo-consumidor', // Nome do grupo de consumidores
      },
    },
  });

  await app.startAllMicroservices();
  await app.listen(3000);
}
bootstrap();

Com isso, definimos que o NestJS vai se conectar a um broker Kafka local (localhost:9092) e que todos os consumidores farão parte do grupo “meu-grupo-consumidor”.

Passo 3: Criando um Produtor no Controller

Podemos criar um Controller para enviar mensagens ao Kafka. Imagine que temos um controlador de Transações que emite um evento sempre que ocorre uma nova compra:

import { Controller, Post } from '@nestjs/common';
import { MessagePattern, Payload } from '@nestjs/microservices';
import { KafkaProducerService } from './kafka-producer.service';

@Controller('transacoes')
export class TransacoesController {
  constructor(private readonly kafkaProducerService: KafkaProducerService) {}

  @Post('nova')
  async novaTransacao() {
    const transacao = {
      id: new Date().getTime(),
      valor: 123.45,
      data: new Date(),
    };
    // Envia a mensagem para o tópico "transacoes"
    await this.kafkaProducerService.emit('transacoes', transacao);
    return { message: 'Transação enviada com sucesso!' };
  }

  // Exemplo de um pattern para consumir mensagem (opcional)
  @MessagePattern('transacoes')
  consumirTransacoes(@Payload() message: any) {
    console.log('Nova transação recebida:', message);
  }
}

Passo 4: Serviço de Produção de Mensagens (Producer)

Vamos criar o serviço KafkaProducerService, que de fato enviará (produzirá) as mensagens. Basta injetar o ClientKafka e chamar o método emit:

import { Injectable, OnModuleInit } from '@nestjs/common';
import { Client, ClientKafka, Transport } from '@nestjs/microservices';

@Injectable()
export class KafkaProducerService implements OnModuleInit {
  @Client({
    transport: Transport.KAFKA,
    options: {
      client: {
        brokers: ['localhost:9092'],
      },
      producer: {
        allowAutoTopicCreation: true,
      },
    },
  })
  client: ClientKafka;

  async onModuleInit() {
    // Conexão com o broker Kafka
    await this.client.connect();
  }

  async emit(topic: string, message: any) {
    await this.client.emit(topic, message);
  }
}

Nesse exemplo, estamos usando a configuração de allowAutoTopicCreation para que o Kafka crie automaticamente o tópico se ele não existir. Em produção, geralmente recomendamos desabilitar esse recurso e criar os tópicos manualmente.

Pronto! Agora, ao chamar a rota POST /transacoes/nova, será enviada uma mensagem para o tópico transacoes, e nosso microservice também está pronto para consumir essas mensagens (caso queira).

Esse é apenas um pequeno exemplo de como utilizar o Kafka com NestJS. A flexibilidade do NestJS possibilita criar microservices independentes para cada domínio do seu sistema, todos conectados a um ou mais tópicos Kafka.

Escalabilidade e Alta Disponibilidade

Um dos principais motivos para usar o Apache Kafka é sua escalabilidade horizontal. Para aumentar a capacidade de processamento e resiliência, basta adicionar mais brokers ao cluster.

Replicações de Partições: Cada partição pode ter réplicas em diferentes brokers para garantir que, em caso de falha, haja uma cópia dos dados disponível em outro nó.
ZooKeeper ou KRaft: O Kafka tradicionalmente usa o ZooKeeper para coordenar o cluster. Em versões mais recentes, existe o modo KRaft, que retira a dependência externa do ZooKeeper e gerencia tudo internamente.

Com esse modelo, se um broker falhar, outro broker que contém a réplica das partições assumirá o papel de “líder”, garantindo que as mensagens continuem sendo processadas e não haja perda de dados.

Além disso, o Kafka é altamente otimizado para lidar com partições de forma paralela, o que significa que milhares de mensagens podem ser processadas simultaneamente sem degradação significativa de performance.

Boas Práticas e Considerações de Segurança

Trabalhar com sistemas distribuídos requer algumas melhores práticas que ajudam a manter a integridade e a segurança do cluster:

Gerenciar Retenção de Dados: Configure cuidadosamente o tempo de retenção de mensagens no Kafka. Períodos muito longos podem sobrecarregar o sistema, enquanto períodos curtos podem impedir análises futuras.
Segurança e Criptografia: Em ambientes corporativos, habilite protocolos de criptografia como SSL/TLS, bem como controle de acesso via SASL para proteger dados sensíveis.
Monitoramento e Alertas: Utilize ferramentas como Prometheus e Grafana para monitorar a saúde do cluster e configurar alertas. Há, ainda, soluções como Confluent Control Center que oferecem monitoramento integrado para Kafka.
Evite Tópicos Muito Grandes: Divida as mensagens em mais de um tópico se houver muitos tipos de mensagens. Isso ajuda a organização e a performance, diminuindo o acoplamento entre serviços.
Teste de Carga: Antes de colocar o sistema em produção, é recomendável executar testes de carga para verificar se a infraestrutura está dimensionada corretamente.

Conclusão

O Apache Kafka se tornou uma peça-chave no ecossistema de aplicações que precisam lidar com dados em tempo real, grande volume de mensagens e escalabilidade horizontal. Seu modelo de tópicos, partições, produtores e consumidores facilita a integração com inúmeros serviços, e a adoção de plataformas de streaming em tempo real só tende a crescer.

Para quem deseja iniciar ou aprofundar o uso de Kafka, é fundamental compreender seus conceitos e boas práticas — desde como estruturar tópicos e partições até garantir a segurança do cluster. Além disso, recursos como Kafka Streams e Kafka Connect expandem ainda mais as possibilidades, permitindo construir pipelines de dados completos.

No exemplo que vimos com NestJS, deu para entender como é relativamente simples integrar o Kafka a aplicações Node.js usando os recursos de microserviços do framework. Com a configuração correta, você pode ter um sistema distribuído e tolerante a falhas, pronto para processar e reagir a eventos em tempo real.

O que você acha? Deixe seu comentário!

Gostou deste artigo? Tem alguma experiência ou dica adicional sobre Apache Kafka e NestJS que gostaria de compartilhar? Deixe seu comentário abaixo e participe da conversa! Seus insights podem ajudar outros iniciantes a entender ainda mais sobre essa poderosa plataforma de streaming distribuído.

Esperamos que este conteúdo tenha sido útil na sua jornada de aprendizado em Apache Kafka. Caso tenha dúvidas ou sugestões, sinta-se à vontade para comentar. Até a próxima!