Полиглотные Event-Driven системы с Kafka, RabbitMQ и gRPC на Java, Go и Node.js

Запись от ArchitectMsa размещена 13.10.2025 в 20:34

Метки apache, api gateway, architecture, avro, backpressure, docker compose, event-driven, go, grpc, http, java, javascript, kafka, microservices, node.js, opentelemetry, protobuf, rabbitmq, spring, spring boot, streaming

Нажмите на изображение для увеличения
Название: Полиглотные Event-Driven системы с Kafka, RabbitMQ и gRPC на Java, Go и Node.js.jpg
Просмотров: 306
Размер: 60.4 Кб
ID: 11281

В 2019 году я столкнулся с любопытной ситуацией. Команда запускала новый сервис рекомендаций на Python - модели машинного обучения требовали NumPy и TensorFlow. Основное приложение работало на Java, а фронтенд крутился на Node.js. И вот появилась задача: связать все это в единую систему, где заказы создаются через веб, обрабатываются на бэкенде, а рекомендации генерируются в реальном времени.

Классический монолит на одном языке тут не прокатит. Можно, конечно, переписать все на Java - но зачем изобретать велосипед для ML-моделей, когда готовая экосистема Python работает из коробки? Можно заставить фронтенд-разработчиков учить Java - но производительность команды упадет в три раза, пока они разберутся с многопоточностью и Spring Framework.

Полиглотная архитектура - не дань моде, а прагматичный выбор. У каждого языка свои сильные стороны. Go отлично справляется с высоконагруженными сетевыми сервисами благодаря горутинам и эффективному планировщику. Java предлагает зрелую экосистему корпоративных фреймворков и библиотек. Node.js быстро обрабатывает асинхронные IO-операции и легко интегрируется с фронтендом. Но как заставить эти языки разговаривать друг с другом? Тут на сцену выходят event-driven подходы: Kafka для потоковой обработки событий, RabbitMQ для управления очередями задач, gRPC для синхронных вызовов между сервисами. Каждый инструмент решает свой класс задач - и все они поддерживают клиентские библиотеки для основных языков. Дальше я покажу, как собрать такую систему на практике, с рабочим кодом и разбором подводных камней. Без восторженных обещаний - только то, что реально работает в production.

Kafka в роли шины событий

Нажмите на изображение для увеличения
Название: Полиглотные Event-Driven системы с Kafka, RabbitMQ и gRPC на Java, Go и Node.js 2.jpg
Просмотров: 170
Размер: 45.5 Кб
ID: 11282

Kafka - это не просто брокер сообщений. Это распределенный лог, который хранит события в порядке их поступления и позволяет читать их многократно. В отличие от традиционных очередей, где сообщение удаляется после чтения, Kafka хранит события заданное время - хоть неделю, хоть месяц. Это меняет подход к проектированию: события становятся источником истины, к которому можно вернуться. Год назад я настраивал систему аналитики заказов. Нужно было собирать события из разных сервисов - создание заказа, изменение статуса, оплата, доставка. Первая версия на RabbitMQ работала, но когда аналитики захотели пересчитать метрики за прошлый месяц, пришлось лезть в базу данных и реконструировать события. С Kafka такой проблемы нет - просто перечитываешь топик с нужного offset.

Запуск кластера и создание топиков

Для разработки поднимаю Kafka через Docker Compose - быстро и без геморроя с зависимостями:

YAML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
version: '3.8'
services:
  zookeeper:
    image: confluentinc/cp-zookeeper:7.5.0
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181
      
  kafka:
    image: confluentinc/cp-kafka:7.5.0
    depends_on:
      - zookeeper
    ports:
      - "9092:9092"
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://localhost:9092
      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1

Топики создаю с партиционированием - это критично для масштабирования. Три партиции позволяют обрабатывать события параллельно тремя консюмерами:

Bash
1
2
3
4
kafka-topics --create --topic order-events \
  --partitions 3 \
  --replication-factor 1 \
  --bootstrap-server localhost:9092

Количество партиций - компромисс. Много партиций дают параллелизм, но увеличивают накладные расходы на синхронизацию и усложняют управление offsets. Я обычно начинаю с количества, равного числу серверов умноженному на два, и потом масштабирую по мере роста нагрузки.

Продюсер на Java с идемпотентностью

Java-сервис отвечает за создание заказов. Каждый раз, когда пользователь оформляет заказ, сервис публикует событие OrderCreated в Kafka:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
@Service
public class OrderEventProducer {
    private final KafkaTemplate<String, String> kafkaTemplate;
 
    public OrderEventProducer(KafkaTemplate<String, String> kafkaTemplate) {
        this.kafkaTemplate = kafkaTemplate;
    }
 
    public void publishOrderCreated(String orderId, String userId, BigDecimal amount) {
        // Формируем событие в JSON
        String event = String.format(
            "{\"eventType\":\"OrderCreated\",\"orderId\":\"%s\",\"userId\":\"%s\",\"amount\":%s,\"timestamp\":%d}",
            orderId, userId, amount, System.currentTimeMillis()
        );
        
        // Отправляем с ключом orderId - гарантирует порядок событий для одного заказа
        kafkaTemplate.send("order-events", orderId, event)
            .whenComplete((result, ex) -> {
                if (ex != null) {
                    // Логируем ошибку, но не падаем - retry произойдет автоматически
                    log.error("Failed to send event for order {}", orderId, ex);
                }
            });
    }
}

Ключ сообщения (orderId) - важная деталь. Kafka гарантирует, что все сообщения с одним ключом попадут в одну партицию и будут обработаны в порядке отправки. Без ключа сообщения распределяются round-robin, и порядок теряется. Конфигурация продюсера включает идемпотентность - защиту от дубликатов при повторных отправках:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
@Configuration
public class KafkaProducerConfig {
    @Bean
    public ProducerFactory<String, String> producerFactory() {
        Map<String, Object> config = new HashMap<>();
        config.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        config.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
        config.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
        
        // Включаем идемпотентность
        config.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);
        // Максимум неподтвержденных запросов - влияет на throughput
        config.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 5);
        // Стратегия повторов
        config.put(ProducerConfig.RETRIES_CONFIG, Integer.MAX_VALUE);
        config.put(ProducerConfig.ACKS_CONFIG, "all");
        
        return new DefaultKafkaProducerFactory<>(config);
    }
}

ENABLE_IDEMPOTENCE_CONFIG заставляет Kafka отслеживать sequence number для каждого сообщения от продюсера. Если продюсер отправит одно сообщение дважды (например, после network timeout), брокер отбросит дубликат. Без этой настройки при сбое сети можно получить десять копий одного события.

Продюсер на Go с контролем ошибок

Go-сервис обрабатывает платежи и публикует события об изменении статуса. Использую библиотеку github.com/IBM/sarama - самая популярная и стабильная для Go:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
package main
 
import (
    "encoding/json"
    "fmt"
    "log"
    "time"
    
    "github.com/IBM/sarama"
)
 
type PaymentEvent struct {
    EventType string  [INLINE]json:"eventType"[/INLINE]
    OrderID   string  [INLINE]json:"orderId"[/INLINE]
    Status    string  [INLINE]json:"status"[/INLINE]
    Timestamp int64   [INLINE]json:"timestamp"[/INLINE]
}
 
type PaymentProducer struct {
    producer sarama.SyncProducer
}
 
func NewPaymentProducer(brokers []string) (*PaymentProducer, error) {
    config := sarama.NewConfig()
    config.Producer.RequiredAcks = sarama.WaitForAll // Ждем подтверждения от всех реплик
    config.Producer.Retry.Max = 5
    config.Producer.Return.Successes = true
    config.Producer.Idempotent = true // Идемпотентность
    config.Producer.MaxMessageBytes = 1000000
    
    producer, err := sarama.NewSyncProducer(brokers, config)
    if err != nil {
        return nil, fmt.Errorf("failed to create producer: %w", err)
    }
    
    return &PaymentProducer{producer: producer}, nil
}
 
func (p *PaymentProducer) PublishPaymentProcessed(orderID string, status string) error {
    event := PaymentEvent{
        EventType: "PaymentProcessed",
        OrderID:   orderID,
        Status:    status,
        Timestamp: time.Now().Unix(),
    }
    
    payload, err := json.Marshal(event)
    if err != nil {
        return fmt.Errorf("failed to marshal event: %w", err)
    }
    
    msg := &sarama.ProducerMessage{
        Topic: "order-events",
        Key:   sarama.StringEncoder(orderID), // Ключ для сохранения порядка
        Value: sarama.ByteEncoder(payload),
    }
    
    partition, offset, err := p.producer.SendMessage(msg)
    if err != nil {
        return fmt.Errorf("failed to send message: %w", err)
    }
    
    log.Printf("Message sent to partition %d at offset %d", partition, offset)
    return nil
}

SyncProducer блокирует горутину до получения подтверждения от Kafka - надежно, но медленнее асинхронной отправки. Для высокой нагрузки есть AsyncProducer, который отправляет сообщения в background и возвращает результат через канал. Но там надо аккуратно обрабатывать ошибки, иначе можно потерять события.

Консюмер на Node.js и танцы с offset

Node.js сервис читает события из Kafka и отправляет уведомления пользователям. Библиотека kafkajs неплохо справляется с этой задачей, хотя и имеет свои капризы:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
const { Kafka } = require('kafkajs');
 
class OrderEventConsumer {
  constructor() {
    this.kafka = new Kafka({
      clientId: 'notification-service',
      brokers: ['localhost:9092'],
      // Retry стратегия - важна для переподключений
      retry: {
        initialRetryTime: 100,
        retries: 8
      }
    });
    
    this.consumer = this.kafka.consumer({ 
      groupId: 'notification-group',
      // Читаем с самого старого непрочитанного сообщения
      fromBeginning: false,
      // Автоматический commit offset - опасная штука
      autoCommit: false
    });
  }
 
  async start() {
    await this.consumer.connect();
    await this.consumer.subscribe({ 
      topic: 'order-events',
      // Подписываемся на все партиции топика
      fromBeginning: false 
    });
 
    await this.consumer.run({
      // Обрабатываем сообщения пачками для производительности
      eachBatch: async ({ batch, resolveOffset, heartbeat, isRunning }) => {
        for (let message of batch.messages) {
          if (!isRunning()) break; // Проверяем, не останавливается ли консюмер
          
          try {
            const event = JSON.parse(message.value.toString());
            await this.processEvent(event);
            
            // Коммитим offset только после успешной обработки
            await resolveOffset(message.offset);
            await heartbeat(); // Сигнализируем Kafka, что мы живы
          } catch (error) {
            console.error(`Error processing message at offset ${message.offset}:`, error);
            // Тут решаем: пропустить сообщение или упасть
            // В production лучше отправить в DLQ (Dead Letter Queue)
            throw error; // Останавливаем обработку батча
          }
        }
      }
    });
  }
 
  async processEvent(event) {
    // Имитация отправки уведомления
    console.log(`Processing ${event.eventType} for order ${event.orderId}`);
    
    // Идемпотентность на стороне консюмера
    const alreadyProcessed = await this.checkIfProcessed(event.orderId, event.eventType);
    if (alreadyProcessed) {
      console.log(`Event already processed, skipping`);
      return;
    }
    
    // Отправляем уведомление пользователю
    await this.sendNotification(event);
    
    // Сохраняем факт обработки
    await this.markAsProcessed(event.orderId, event.eventType);
  }
  
  // Заглушки для примера
  async checkIfProcessed(orderId, eventType) {
    // В реальности - проверка в Redis или БД
    return false;
  }
  
  async markAsProcessed(orderId, eventType) {
    // Сохраняем в Redis с TTL равным retention периоду Kafka
  }
  
  async sendNotification(event) {
    // Отправка через WebSocket, email, push
  }
}

Обратите внимание на autoCommit: false. Это критично. Если включить автоматический commit, Kafka будет сохранять offset каждые N секунд независимо от того, обработали вы сообщение или нет. Сервис упал во время обработки? Offset уже закоммичен, сообщение потеряно навсегда. Я попался на эту грабли в 2020 году - потеряли около сотни заказов за час простоя, пока не восстановили из backup. Ручной commit через resolveOffset дает контроль: коммитим только после успешной обработки. Но появляется новая проблема - что делать с ошибками?

Стратегии обработки ошибок

Варианта три. Первый - пропустить сообщение и закоммитить offset. Подходит для некритичных событий вроде метрик или логов. Второй - упасть и ждать, пока проблема не решится. Консюмер встанет на битом сообщении, и обработка всех последующих остановится. Третий - отправить проблемное сообщение в Dead Letter Queue и продолжить работу.
Я использую комбинацию второго и третьего подхода. Для транзиентных ошибок (сеть упала, база недоступна) делаю retry с exponential backoff:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
async processWithRetry(event, maxRetries = 3) {
  for (let attempt = 1; attempt <= maxRetries; attempt++) {
    try {
      await this.processEvent(event);
      return; // Успех
    } catch (error) {
      if (this.isTransientError(error) && attempt < maxRetries) {
        // Ждем с экспоненциальной задержкой
        const delay = Math.pow(2, attempt) * 100;
        await new Promise(resolve => setTimeout(resolve, delay));
        console.log(`Retry attempt ${attempt} after ${delay}ms`);
      } else {
        // Перманентная ошибка или исчерпаны попытки
        await this.sendToDLQ(event, error);
        return; // Не бросаем исключение, чтобы не останавливать батч
      }
    }
  }
}
 
isTransientError(error) {
  // Проверяем код ошибки
  return error.code === 'ECONNREFUSED' || 
         error.code === 'ETIMEDOUT' ||
         error.message.includes('temporary');
}

DLQ - это отдельный топик для битых сообщений. Туда попадает оригинальное сообщение плюс метаданные об ошибке. Потом можно спокойно разобраться, что пошло не так, и переобработать вручную или автоматически.

Транзакции в Kafka

Идемпотентность продюсера защищает от дубликатов внутри одной сессии. Но что если нужно атомарно записать несколько сообщений в разные топики? Или прочитать из одного топика, обработать и записать в другой - как единую транзакцию? Для этого в Kafka есть транзакции. Работают они так: продюсер начинает транзакцию, отправляет несколько сообщений, коммитит транзакцию. Консюмер с изоляцией read_committed увидит сообщения только после успешного commit.
Пример на Java - сервис читает заказы, валидирует и публикует результат:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
@Service
public class OrderProcessor {
  private final KafkaTemplate<String, String> kafkaTemplate;
 
  public void processOrders() {
    // Начинаем транзакцию
    kafkaTemplate.executeInTransaction(operations -> {
      // Читаем сообщения из input топика
      ConsumerRecords<String, String> records = // ... чтение
      
      for (ConsumerRecord<String, String> record : records) {
        String order = record.value();
        
        if (validateOrder(order)) {
          // Публикуем в топик валидных заказов
          operations.send("validated-orders", record.key(), order);
        } else {
          // Публикуем в топик ошибок
          operations.send("failed-orders", record.key(), order);
        }
      }
      
      // Если все ок - транзакция закоммитится автоматически
      // Если exception - откатится
      return null;
    });
  }
}

Конфигурация требует указать transactional.id - уникальный идентификатор для продюсера:

Java
1
2
config.put(ProducerConfig.TRANSACTIONAL_ID_CONFIG, "order-processor-1");
config.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);

Транзакции добавляют накладные расходы - каждая транзакция пишет служебные маркеры в лог. Для высоконагруженных систем это может снизить throughput на 20-30%. Но зато получаешь строгие гарантии согласованности. Я использую транзакции только там, где критична атомарность - обработка платежей, изменение баланса счета. Для логов и метрик они избыточны.

Spring Kafka. Ошибка Connection refused при подключении к брокеру Kafka
Пишу Kafka Broker и Consumer, чтобы ловить сообщения от приложения. При попытке достать сообщения...

Java & Apache Kafka
Всем доброго времени суток! С кафкой раньше не сталкивался. Задача такая: генератор генерит...

Проблемы с java kafka и zookeeper на windows 10
Здраствуйте. Я сейчас пытаюсь настроить zookeeper и kafka по https://habr.com/ru/post/496182/ вот...

java Kafka не могу правильно отправить dto через postman
Здравствуйте, Я сейчас изучаю kafka по данной статье Apache Kafka для чайников на habr....

RabbitMQ для сложной маршрутизации

Нажмите на изображение для увеличения
Название: Полиглотные Event-Driven системы с Kafka, RabbitMQ и gRPC на Java, Go и Node.js 3.jpg
Просмотров: 67
Размер: 63.4 Кб
ID: 11283

Kafka хорош для event streaming, но плох для task queues. Представьте: приложение генерирует отчеты, отправляет email, ресайзит картинки. Эти задачи должны выполняться фоновыми воркерами, причем отчеты важнее картинок, а email должен уходить через конкретного провайдера. В Kafka такую логику замутить можно, но получится костыль. RabbitMQ спроектирован именно под такие сценарии. Вместо партиций и offset - exchange, очереди и routing keys. Сообщение попадает в exchange, который маршрутизирует его в одну или несколько очередей по правилам. Консюмер забирает задачу, обрабатывает и подтверждает - сообщение удаляется из очереди навсегда. В 2021 году я добавлял систему уведомлений в банковское приложение. Событие "новый платеж" должно было порождать до пяти разных действий: push-уведомление, email, SMS, запись в лог аудита, обновление счетчиков. При этом SMS критичнее push, а запись в аудит - вообще законодательное требование. RabbitMQ решил задачу за день - один exchange, пять очередей, каждая со своим приоритетом и количеством воркеров.

Exchange и routing patterns

RabbitMQ предлагает четыре типа exchange. Direct маршрутизирует по точному совпадению routing key. Topic использует паттерны с wildcards - order.*.created подойдет для order.payment.created и order.shipment.created. Fanout отправляет во все привязанные очереди, игнорируя routing key. Headers смотрит на заголовки сообщения вместо ключа - редко нужен.
Я чаще всего использую topic exchange - гибкости хватает для 90% задач:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
@Configuration
public class RabbitMQConfig {
    public static final String TOPIC_EXCHANGE = "events.exchange";
    public static final String EMAIL_QUEUE = "email.queue";
    public static final String SMS_QUEUE = "sms.queue";
    public static final String AUDIT_QUEUE = "audit.queue";
 
    @Bean
    public TopicExchange eventExchange() {
        return new TopicExchange(TOPIC_EXCHANGE, true, false);
    }
 
    @Bean
    public Queue emailQueue() {
        // Очередь с приоритетами от 0 до 10
        Map<String, Object> args = new HashMap<>();
        args.put("x-max-priority", 10);
        return new Queue(EMAIL_QUEUE, true, false, false, args);
    }
 
    @Bean
    public Queue smsQueue() {
        Map<String, Object> args = new HashMap<>();
        args.put("x-max-priority", 10);
        // Dead letter exchange для битых сообщений
        args.put("x-dead-letter-exchange", "dlx.exchange");
        return new Queue(SMS_QUEUE, true, false, false, args);
    }
 
    @Bean
    public Queue auditQueue() {
        return new Queue(AUDIT_QUEUE, true);
    }
 
    @Bean
    public Binding emailBinding() {
        // Email для всех событий платежей
        return BindingBuilder.bind(emailQueue())
            .to(eventExchange())
            .with("payment.#");
    }
 
    @Bean
    public Binding smsBinding() {
        // SMS только для критичных событий
        return BindingBuilder.bind(smsQueue())
            .to(eventExchange())
            .with("payment.*.critical");
    }
 
    @Bean
    public Binding auditBinding() {
        // Аудит для всего
        return BindingBuilder.bind(auditQueue())
            .to(eventExchange())
            .with("#");
    }
}

Один exchange раскидывает события по трем очередям. Событие с ключом payment.transfer.critical попадет во все три. Событие payment.card.normal - только в email и audit. Событие user.login - только в audit.

Продюсер на Java со Spring AMQP

Spring AMQP делает работу с RabbitMQ почти тривиальной. Создаем сервис для отправки уведомлений:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
@Service
public class NotificationPublisher {
    private final RabbitTemplate rabbitTemplate;
 
    public NotificationPublisher(RabbitTemplate rabbitTemplate) {
        this.rabbitTemplate = rabbitTemplate;
        // Настраиваем обязательную доставку
        rabbitTemplate.setMandatory(true);
        // Callback при неудачной маршрутизации
        rabbitTemplate.setReturnsCallback(returned -> {
            log.error("Message returned: {}, reply: {}", 
                returned.getMessage(), returned.getReplyText());
        });
    }
 
    public void publishPaymentEvent(String userId, String eventType, 
                                    BigDecimal amount, boolean isCritical) {
        PaymentNotification notification = new PaymentNotification(
            userId, eventType, amount, System.currentTimeMillis()
        );
 
        // Формируем routing key
        String routingKey = String.format("payment.%s.%s", 
            eventType, isCritical ? "critical" : "normal");
 
        // Отправляем с приоритетом
        rabbitTemplate.convertAndSend(
            RabbitMQConfig.TOPIC_EXCHANGE,
            routingKey,
            notification,
            message -> {
                // Критичные сообщения получают высокий приоритет
                message.getMessageProperties().setPriority(isCritical ? 10 : 5);
                return message;
            }
        );
    }
}

setMandatory(true) важна - без нее RabbitMQ молча выбросит сообщение, если ни одна очередь не подошла под routing key. С этим флагом получим callback и сможем залогировать проблему или отправить в DLQ.

Консюмер на Go с контролем нагрузки

Go-воркер обрабатывает SMS-уведомления. Главная фишка - prefetch limit, который контролирует, сколько сообщений консюмер может забрать из очереди одновременно:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
package main
 
import (
    "encoding/json"
    "fmt"
    "log"
    "time"
    
    "github.com/streadway/amqp"
)
 
type SMSWorker struct {
    conn    *amqp.Connection
    channel *amqp.Channel
}
 
func NewSMSWorker(url string) (*SMSWorker, error) {
    conn, err := amqp.Dial(url)
    if err != nil {
        return nil, fmt.Errorf("failed to connect: %w", err)
    }
 
    ch, err := conn.Channel()
    if err != nil {
        return nil, fmt.Errorf("failed to open channel: %w", err)
    }
 
    // Устанавливаем prefetch - критично для балансировки
    err = ch.Qos(
        3,     // Prefetch count - макс. непотвержденных сообщений
        0,     // Prefetch size - 0 означает без лимита по байтам
        false, // Global - false означает per consumer
    )
    if err != nil {
        return nil, fmt.Errorf("failed to set QoS: %w", err)
    }
 
    return &SMSWorker{conn: conn, channel: ch}, nil
}
 
func (w *SMSWorker) Start(queueName string) error {
    // Получаем канал с сообщениями
    msgs, err := w.channel.Consume(
        queueName,
        "",    // Consumer tag - пустая строка для автогенерации
        false, // Auto-ack - ОБЯЗАТЕЛЬНО false
        false, // Exclusive
        false, // No-local
        false, // No-wait
        nil,   // Args
    )
    if err != nil {
        return fmt.Errorf("failed to consume: %w", err)
    }
 
    log.Printf("SMS worker started, waiting for messages...")
 
    // Обрабатываем сообщения в цикле
    for msg := range msgs {
        startTime := time.Now()
        
        if err := w.processMessage(msg); err != nil {
            log.Printf("Error processing message: %v", err)
            // Отклоняем с requeue=false - отправится в DLX
            msg.Nack(false, false)
        } else {
            // Подтверждаем обработку
            msg.Ack(false)
            log.Printf("Message processed in %v", time.Since(startTime))
        }
    }
 
    return nil
}
 
func (w *SMSWorker) processMessage(msg amqp.Delivery) error {
    var notification map[string]interface{}
    if err := json.Unmarshal(msg.Body, &notification); err != nil {
        return fmt.Errorf("invalid JSON: %w", err)
    }
 
    // Проверяем приоритет из заголовков
    priority := msg.Priority
    log.Printf("Processing SMS with priority %d: %v", priority, notification)
 
    // Имитация отправки SMS (в реале - вызов API провайдера)
    time.Sleep(time.Millisecond * 200)
 
    return nil
}

Prefetch count = 3 означает: консюмер забирает три сообщения из очереди, обрабатывает их параллельно (если использовать горутины) и только после Ack получает следующие. Если поставить prefetch = 1, получится sequential processing - медленно, но безопасно. Если 100 - воркер может захватить все сообщения из очереди и подавиться.
Я обычно ставлю prefetch равным количеству горутин в воркер-пуле. Три горутины - prefetch 3. Десять горутин - prefetch 10. Это обеспечивает баланс между throughput и fair distribution между воркерами.

Node.js и проблема backpressure

Node.js однопоточный, поэтому prefetch тут особенно критичен. Если консюмер на Node медленно обрабатывает сообщения, но prefetch большой, очередь в памяти разрастается и приложение падает с OOM.

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
const amqp = require('amqplib');
 
class EmailWorker {
  async start() {
    this.connection = await amqp.connect('amqp://localhost');
    this.channel = await this.connection.createChannel();
 
    // Prefetch 1 - строго последовательная обработка
    await this.channel.prefetch(1);
 
    await this.channel.consume('email.queue', async (msg) => {
      if (!msg) return;
 
      try {
        const notification = JSON.parse(msg.content.toString());
        await this.sendEmail(notification);
        
        // Подтверждаем после успешной отправки
        this.channel.ack(msg);
      } catch (error) {
        console.error('Email sending failed:', error);
        
        // Проверяем счетчик попыток
        const retryCount = (msg.properties.headers['x-retry-count'] || 0);
        
        if (retryCount < 3) {
          // Переотправляем с задержкой
          await this.retryWithDelay(msg, retryCount + 1);
          this.channel.ack(msg); // Убираем из основной очереди
        } else {
          // Отправляем в DLQ
          this.channel.nack(msg, false, false);
        }
      }
    });
  }
 
  async retryWithDelay(msg, retryCount) {
    // Переотправляем в ту же очередь через delay exchange
    const delayMs = Math.pow(2, retryCount) * 1000; // Exponential backoff
    
    this.channel.publish(
      'delayed.exchange',
      'email.queue',
      msg.content,
      {
        headers: { 
          'x-retry-count': retryCount,
          'x-delay': delayMs 
        }
      }
    );
  }
 
  async sendEmail(notification) {
    // Реальная отправка через SMTP или API
    console.log(`Sending email to ${notification.userId}`);
    await new Promise(resolve => setTimeout(resolve, 500));
  }
}

Prefetch 1 гарантирует, что в обработке всегда только одно сообщение. Для Node.js это часто оптимальный выбор - event loop свободен для других задач, memory footprint стабилен. Если нужен параллелизм, лучше запустить несколько инстансов воркера, чем увеличивать prefetch.

Приоритезация через weighted round-robin

Проблема с приоритетами в RabbitMQ - они работают не так, как ожидаешь. Очередь с включенными приоритетами сортирует сообщения, но не гарантирует строгого порядка. Если в очереди 100 сообщений с приоритетом 5 и одно с приоритетом 10, высокоприоритетное сообщение не обязательно выскочит первым - RabbitMQ использует алгоритм, балансирующий между fair distribution и соблюдением приоритетов. В 2022 я попал на это при разработке системы обработки транзакций. Критичные платежи должны были обрабатываться мгновенно, обычные - по мере возможности. Выставил приоритеты 10 и 1, запустил нагрузку - критичные транзакции застревали на десятки секунд. Оказалось, что при высокой нагрузке RabbitMQ берет пачку сообщений из очереди (по умолчанию до 256) и раздает их консюмерам без учета приоритетов внутри пачки.
Решение - создать отдельные очереди для разных приоритетов и распределять воркеры:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
@Configuration
public class PriorityQueuesConfig {
    @Bean
    public Queue highPriorityQueue() {
        return new Queue("tasks.high", true);
    }
 
    @Bean
    public Queue mediumPriorityQueue() {
        return new Queue("tasks.medium", true);
    }
 
    @Bean
    public Queue lowPriorityQueue() {
        return new Queue("tasks.low", true);
    }
 
    @Bean
    public Binding highPriorityBinding() {
        return BindingBuilder.bind(highPriorityQueue())
            .to(new TopicExchange("tasks.exchange"))
            .with("*.high");
    }
 
    // Аналогично для medium и low
}

Теперь запускаем воркеры с разным распределением: три воркера на high, два на medium, один на low. Получается weighted round-robin руками, но работает надежно:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
func main() {
    // Пул воркеров с weighted распределением
    workerPool := &WorkerPool{
        highCount:   3,
        mediumCount: 2,
        lowCount:    1,
    }
 
    // Запускаем воркеры для каждого уровня приоритета
    for i := 0; i < workerPool.highCount; i++ {
        go workerPool.startWorker("tasks.high", "high")
    }
    
    for i := 0; i < workerPool.mediumCount; i++ {
        go workerPool.startWorker("tasks.medium", "medium")
    }
    
    for i := 0; i < workerPool.lowCount; i++ {
        go workerPool.startWorker("tasks.low", "low")
    }
 
    select {} // Блокируем main
}
 
func (wp *WorkerPool) startWorker(queueName, priority string) {
    conn, _ := amqp.Dial("amqp://localhost")
    ch, _ := conn.Channel()
 
    // Для high-priority очередей ставим больший prefetch
    prefetchMap := map[string]int{
        "high":   5,
        "medium": 3,
        "low":    1,
    }
    
    ch.Qos(prefetchMap[priority], 0, false)
 
    msgs, _ := ch.Consume(queueName, "", false, false, false, false, nil)
 
    for msg := range msgs {
        wp.processTask(msg, priority)
        msg.Ack(false)
    }
}

Такой подход дает полный контроль над распределением ресурсов. Хотите отдать 80% мощности критичным задачам - запускаете восемь воркеров на high и два на medium. Нагрузка изменилась - меняете количество воркеров без переконфигурации очередей.

Dead Letter Exchange и retry policy

Когда сообщение падает с ошибкой, его нужно куда-то деть. Простейший вариант - выбросить. Чуть лучше - отправить в отдельную очередь для ручного разбора. Самый правильный - настроить автоматический retry с exponential backoff через DLX (Dead Letter Exchange). Механика такая: создаем очередь с TTL (time to live) и DLX. Сообщение попадает в эту очередь, висит заданное время, истекает и автоматически отправляется в DLX. Из DLX маршрутизируется обратно в основную очередь для повторной обработки. Количество попыток отслеживаем через заголовок x-retry-count:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
class RetryableConsumer {
  async setupQueues() {
    const channel = await this.connection.createChannel();
 
    // Основная очередь с маршрутизацией в retry exchange
    await channel.assertQueue('payments.process', {
      durable: true,
      arguments: {
        'x-dead-letter-exchange': 'payments.retry'
      }
    });
 
    // Retry exchange
    await channel.assertExchange('payments.retry', 'direct', { durable: true });
 
    // Три retry очереди с разными TTL
    const retryDelays = [1000, 5000, 15000]; // 1s, 5s, 15s
    
    for (let i = 0; i < retryDelays.length; i++) {
      const queueName = `payments.retry.${i}`;
      
      await channel.assertQueue(queueName, {
        durable: true,
        arguments: {
          'x-message-ttl': retryDelays[i],
          'x-dead-letter-exchange': '', // Default exchange
          'x-dead-letter-routing-key': 'payments.process'
        }
      });
 
      await channel.bindQueue(queueName, 'payments.retry', [INLINE]retry.${i}[/INLINE]);
    }
 
    // DLQ для окончательно битых сообщений
    await channel.assertQueue('payments.dlq', { durable: true });
  }
 
  async consume() {
    const channel = await this.connection.createChannel();
    await channel.prefetch(1);
 
    channel.consume('payments.process', async (msg) => {
      if (!msg) return;
 
      const retryCount = msg.properties.headers['x-retry-count'] || 0;
 
      try {
        await this.processPayment(JSON.parse(msg.content.toString()));
        channel.ack(msg);
      } catch (error) {
        console.error(`Payment processing failed (attempt ${retryCount + 1}):`, error);
 
        if (retryCount < 3) {
          // Отправляем в соответствующую retry очередь
          channel.publish(
            'payments.retry',
            [INLINE]retry.${retryCount}[/INLINE],
            msg.content,
            {
              headers: { 'x-retry-count': retryCount + 1 },
              persistent: true
            }
          );
          channel.ack(msg); // Убираем из основной очереди
        } else {
          // После трех попыток - в DLQ
          channel.publish('', 'payments.dlq', msg.content, {
            headers: { 
              'x-retry-count': retryCount,
              'x-error': error.message 
            },
            persistent: true
          });
          channel.ack(msg);
        }
      }
    });
  }
}

Первая попытка падает - сообщение попадает в payments.retry.0, ждет секунду, возвращается. Вторая попытка - пять секунд. Третья - пятнадцать. После третьей - в DLQ навсегда. Такая схема спасала меня не раз. Внешний API упал на час - сообщения копятся в retry очередях, периодически пытаются обработаться и проваливаются снова. API восстановился - все сообщения успешно обрабатываются за несколько минут без потерь.

Мониторинг и алерты

RabbitMQ без мониторинга - как летать вслепую. Надо следить минимум за тремя метриками: глубина очередей, rate обработки, количество unacked сообщений. Если глубина растет быстрее, чем очередь опустошается - скоро будет проблема. Если unacked высокий - консюмеры тормозят или упали.
Management API RabbitMQ отдает всю статистику в JSON. Простейший скрипт на Node для сбора метрик:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
const axios = require('axios');
 
async function collectMetrics() {
  const response = await axios.get('http://localhost:15672/api/queues', {
    auth: { username: 'guest', password: 'guest' }
  });
 
  for (const queue of response.data) {
    console.log(`Queue: ${queue.name}`);
    console.log(`  Messages: ${queue.messages}`);
    console.log(`  Rate: ${queue.messages_details.rate}/s`);
    console.log(`  Unacked: ${queue.messages_unacknowledged}`);
    console.log(`  Consumers: ${queue.consumers}`);
 
    // Алерт если очередь разрастается
    if (queue.messages > 10000) {
      sendAlert(`Queue ${queue.name} has ${queue.messages} messages!`);
    }
 
    // Алерт если консюмеров нет
    if (queue.consumers === 0 && queue.messages > 0) {
      sendAlert(`Queue ${queue.name} has no consumers!`);
    }
  }
}
 
setInterval(collectMetrics, 30000); // Каждые 30 секунд

Эти данные отправляешь в Prometheus или Grafana - получается real-time мониторинг всей системы очередей. Я добавляю дашборд с графиками depth, rate и consumer count для каждой очереди - сразу видно узкие места.

gRPC как синхронный мост

Нажмите на изображение для увеличения
Название: Полиглотные Event-Driven системы с Kafka, RabbitMQ и gRPC на Java, Go и Node.js 4.jpg
Просмотров: 69
Размер: 46.0 Кб
ID: 11284

Kafka и RabbitMQ хороши для асинхронщины, но иногда нужен синхронный ответ здесь и сейчас. Пользователь оформляет заказ - надо валидировать адрес доставки в реальном времени. Платежный шлюз запрашивает баланс - нельзя ждать, пока событие пройдет через брокер. REST API решает задачу, но тащит за собой overhead HTTP/1.1 и проблемы с типизацией - JSON не знает разницы между числом и строкой. gRPC построен на HTTP/2 и Protocol Buffers - бинарный протокол со строгой типизацией и code generation. Один .proto файл компилируется в классы для Java, структуры для Go, типы для TypeScript. Контракт API описан в коде, а не в Swagger-документации, которая всегда отстает от реальности.

В 2023 я переводил внутренние API банковской системы с REST на gRPC. Сервис валидации карт вызывался сотни раз в секунду - каждый HTTP запрос нес килобайты заголовков, парсинг JSON жрал CPU. После миграции latency упала с 45ms до 8ms, а потребление памяти снизилось на 40%. Окупилось за неделю разработки.

Proto-контракты как источник истины

Protocol Buffers - это IDL (Interface Definition Language), где описываешь структуры данных и сервисы. Компилятор protoc генерирует код для выбранного языка - получаешь типобезопасный клиент и сервер автоматически:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
syntax = "proto3";
 
package orderservice;
 
option java_package = "com.example.orders";
option go_package = "orderservice/pb";
 
// Сервис управления заказами
service OrderService {
  // Создание заказа
  rpc CreateOrder(CreateOrderRequest) returns (CreateOrderResponse);
  
  // Получение статуса
  rpc GetOrderStatus(GetOrderStatusRequest) returns (OrderStatus);
  
  // Стриминг обновлений статуса
  rpc StreamOrderUpdates(StreamOrderRequest) returns (stream OrderStatus);
}
 
message CreateOrderRequest {
  string user_id = 1;
  repeated OrderItem items = 2;
  Address delivery_address = 3;
  PaymentMethod payment_method = 4;
}
 
message OrderItem {
  string product_id = 1;
  int32 quantity = 2;
  double price = 3;
}
 
message Address {
  string street = 1;
  string city = 2;
  string postal_code = 3;
  string country = 4;
}
 
enum PaymentMethod {
  PAYMENT_METHOD_UNSPECIFIED = 0;
  CREDIT_CARD = 1;
  BANK_TRANSFER = 2;
  CASH_ON_DELIVERY = 3;
}
 
message CreateOrderResponse {
  string order_id = 1;
  OrderStatus status = 2;
  int64 created_at = 3;
}
 
message GetOrderStatusRequest {
  string order_id = 1;
}
 
message OrderStatus {
  string order_id = 1;
  string status = 2;  // PENDING, PROCESSING, SHIPPED, DELIVERED
  int64 updated_at = 3;
}
 
message StreamOrderRequest {
  string order_id = 1;
}

Нумерация полей - не просто косметика. Числа 1-15 занимают один байт при сериализации, 16-2047 - два байта. Часто используемые поля размещаю в начале. Нельзя менять или переиспользовать номера - это сломает backward compatibility.

Сервер на Go - производительность из коробки

Go идеален для gRPC серверов - горутины дешевы, планировщик эффективен. Каждый входящий запрос обрабатывается в отдельной горутине без overhead потоков:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
package main
 
import (
  "context"
  "fmt"
  "log"
  "net"
  "time"
  
  "google.golang.org/grpc"
  "google.golang.org/grpc/codes"
  "google.golang.org/grpc/status"
  pb "orderservice/pb"
)
 
type orderServer struct {
  pb.UnimplementedOrderServiceServer
  orders map[string]*pb.OrderStatus  // В реале - база данных
}
 
func (s *orderServer) CreateOrder(ctx context.Context, req *pb.CreateOrderRequest) (*pb.CreateOrderResponse, error) {
  // Валидация входных данных
  if req.UserId == "" {
      return nil, status.Error(codes.InvalidArgument, "user_id required")
  }
  
  if len(req.Items) == 0 {
      return nil, status.Error(codes.InvalidArgument, "at least one item required")
  }
 
  // Генерация ID заказа
  orderID := fmt.Sprintf("ORD-%d", time.Now().UnixNano())
  
  // Создаем заказ
  orderStatus := &pb.OrderStatus{
      OrderId:   orderID,
      Status:    "PENDING",
      UpdatedAt: time.Now().Unix(),
  }
  
  s.orders[orderID] = orderStatus
 
  log.Printf("Order created: %s for user %s", orderID, req.UserId)
 
  return &pb.CreateOrderResponse{
      OrderId:   orderID,
      Status:    orderStatus,
      CreatedAt: time.Now().Unix(),
  }, nil
}
 
func (s *orderServer) GetOrderStatus(ctx context.Context, req *pb.GetOrderStatusRequest) (*pb.OrderStatus, error) {
  status, exists := s.orders[req.OrderId]
  if !exists {
      return nil, status.Error(codes.NotFound, "order not found")
  }
 
  return status, nil
}
 
func main() {
  lis, err := net.Listen("tcp", ":50051")
  if err != nil {
      log.Fatalf("Failed to listen: %v", err)
  }
 
  // Создаем gRPC сервер с настройками
  grpcServer := grpc.NewServer(
      grpc.MaxConcurrentStreams(100),  // Лимит стримов
      grpc.ConnectionTimeout(10 * time.Second),
  )
 
  pb.RegisterOrderServiceServer(grpcServer, &orderServer{
      orders: make(map[string]*pb.OrderStatus),
  })
 
  log.Printf("gRPC server listening on :50051")
  if err := grpcServer.Serve(lis); err != nil {
      log.Fatalf("Failed to serve: %v", err)
  }
}

UnimplementedOrderServiceServer - встроенная заглушка, которая возвращает "not implemented" для всех методов. Вы переопределяете только нужные - остальные работают по умолчанию. Это спасает при добавлении новых методов в proto - старый код продолжает компилироваться.

Клиент на Java через Spring Boot

Java клиент использует stub, сгенерированный protoc. Spring Boot упрощает интеграцию - инжектишь клиента как обычный бин:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
@Service
public class OrderGrpcClient {
  private final OrderServiceGrpc.OrderServiceBlockingStub blockingStub;
 
  public OrderGrpcClient(@Value("${grpc.server.address}") String serverAddress) {
      ManagedChannel channel = ManagedChannelBuilder
          .forTarget(serverAddress)
          .usePlaintext()  // Для dev - в prod используйте TLS
          .build();
 
      this.blockingStub = OrderServiceGrpc.newBlockingStub(channel);
  }
 
  public String createOrder(String userId, List<OrderItem> items, Address address) {
      CreateOrderRequest request = CreateOrderRequest.newBuilder()
          .setUserId(userId)
          .addAllItems(items)
          .setDeliveryAddress(address)
          .setPaymentMethod(PaymentMethod.CREDIT_CARD)
          .build();
 
      try {
          CreateOrderResponse response = blockingStub
              .withDeadline(Deadline.after(5, TimeUnit.SECONDS))  // Timeout
              .createOrder(request);
 
          log.info("Order created: {}", response.getOrderId());
          return response.getOrderId();
 
      } catch (StatusRuntimeException e) {
          if (e.getStatus().getCode() == Status.Code.DEADLINE_EXCEEDED) {
              log.error("Request timeout");
          } else if (e.getStatus().getCode() == Status.Code.INVALID_ARGUMENT) {
              log.error("Invalid request: {}", e.getStatus().getDescription());
          }
          throw new OrderCreationException("Failed to create order", e);
      }
  }
 
  public OrderStatus getOrderStatus(String orderId) {
      GetOrderStatusRequest request = GetOrderStatusRequest.newBuilder()
          .setOrderId(orderId)
          .build();
 
      try {
          return blockingStub.getOrderStatus(request);
      } catch (StatusRuntimeException e) {
          log.error("Failed to get status for order {}: {}", orderId, e.getMessage());
          throw new OrderNotFoundException(orderId);
      }
  }
}

BlockingStub синхронный - вызов блокирует поток до получения ответа. Для асинхронщины есть FutureStub (CompletableFuture) и Stub (callback based). Я использую blocking для простых запросов, async - когда нужно параллелить несколько вызовов.

Клиент на Node.js и промисификация

Node.js клиент из коробки работает через коллбеки - не очень удобно. Оборачиваю в промисы для нормального async/await:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
const grpc = require('@grpc/grpc-js');
const protoLoader = require('@grpc/proto-loader');
const { promisify } = require('util');
 
class OrderClient {
  constructor(serverAddress) {
    const packageDefinition = protoLoader.loadSync('order.proto', {
      keepCase: true,
      longs: String,
      enums: String,
      defaults: true,
      oneofs: true
    });
 
    const proto = grpc.loadPackageDefinition(packageDefinition).orderservice;
    
    this.client = new proto.OrderService(
      serverAddress,
      grpc.credentials.createInsecure()
    );
 
    // Промисифицируем методы
    this.createOrder = promisify(this.client.createOrder.bind(this.client));
    this.getOrderStatus = promisify(this.client.getOrderStatus.bind(this.client));
  }
 
  async placeOrder(userId, items, address) {
    const request = {
      user_id: userId,
      items: items,
      delivery_address: address,
      payment_method: 'CREDIT_CARD'
    };
 
    try {
      const response = await this.createOrder(request, {
        deadline: Date.now() + 5000  // 5 секунд
      });
 
      console.log(`Order placed: ${response.order_id}`);
      return response;
 
    } catch (error) {
      if (error.code === grpc.status.DEADLINE_EXCEEDED) {
        console.error('Request timeout');
      } else if (error.code === grpc.status.INVALID_ARGUMENT) {
        console.error(`Invalid request: ${error.details}`);
      }
      throw error;
    }
  }
 
  async checkStatus(orderId) {
    try {
      const status = await this.getOrderStatus({ order_id: orderId });
      return status;
    } catch (error) {
      if (error.code === grpc.status.NOT_FOUND) {
        throw new Error(`Order ${orderId} not found`);
      }
      throw error;
    }
  }
}

Deadline - критичная настройка. Без нее запрос может висеть вечно, если сервер тормозит. Я всегда ставлю таймауты - для чтения данных 1-2 секунды, для мутаций 5-10 секунд.

Балансировка через client-side load balancing

gRPC поддерживает встроенную балансировку на стороне клиента. Вместо nginx или HAProxy, клиент сам выбирает, на какую реплику сервера слать запрос:

Go
1
2
3
4
5
6
7
8
// Клиент с round-robin балансировкой
conn, err := grpc.Dial(
  "dns:///order-service.default.svc.cluster.local:50051",
  grpc.WithDefaultServiceConfig(`{"loadBalancingPolicy":"round_robin"}`),
  grpc.WithTransportCredentials(insecure.NewCredentials()),
)
 
client := pb.NewOrderServiceClient(conn)

DNS запись возвращает несколько IP адресов - клиент распределяет запросы между ними. При падении одного сервера, клиент автоматически исключает его из rotation. Работает без дополнительных компонентов, хотя требует правильной настройки DNS.
Для более сложных сценариев есть третий вариант - service mesh типа Istio. Но это уже отдельная тема.

Streaming для больших объемов данных

Обычные RPC-вызовы работают по схеме request-response - отправил запрос, получил ответ, закрыл соединение. Но что если нужно передать поток событий? Отслеживать изменения заказа в реальном времени? Загружать файл чанками? Для этого в gRPC есть streaming - three flavors, каждый под свою задачу.

Server streaming - клиент отправляет один запрос, сервер шлет поток ответов. Классический сценарий - подписка на обновления:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
// Сервер на Go отправляет стрим обновлений статуса
func (s *orderServer) StreamOrderUpdates(req *pb.StreamOrderRequest, stream pb.OrderService_StreamOrderUpdatesServer) error {
    orderID := req.OrderId
    
    // Отправляем текущий статус
    currentStatus, exists := s.orders[orderID]
    if !exists {
        return status.Error(codes.NotFound, "order not found")
    }
    
    if err := stream.Send(currentStatus); err != nil {
        return err
    }
    
    // Подписываемся на изменения (в реале - pub/sub канал)
    updates := s.subscribeToOrderUpdates(orderID)
    
    for {
        select {
        case update := <-updates:
            if err := stream.Send(update); err != nil {
                log.Printf("Stream send error: %v", err)
                return err
            }
        case <-stream.Context().Done():
            // Клиент отключился
            log.Printf("Client disconnected from stream")
            return nil
        }
    }
}

Клиент на Java читает стрим через итератор:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
public void watchOrderStatus(String orderId) {
    StreamOrderRequest request = StreamOrderRequest.newBuilder()
        .setOrderId(orderId)
        .build();
    
    Iterator<OrderStatus> statusStream = blockingStub.streamOrderUpdates(request);
    
    try {
        while (statusStream.hasNext()) {
            OrderStatus status = statusStream.next();
            log.info("Order {} status: {}", status.getOrderId(), status.getStatus());
            
            // Обновляем UI или шлем уведомление
            notifyUser(status);
        }
    } catch (StatusRuntimeException e) {
        log.error("Stream interrupted: {}", e.getMessage());
    }
}

Client streaming - обратная ситуация. Клиент шлет поток данных, сервер отвечает один раз. Удобно для upload файлов или батчинга запросов. В 2021 я делал систему импорта данных - клиент читал CSV по строкам и стримил на сервер, который складывал все в базу батчами по 1000 записей:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
async function uploadOrders(filePath) {
  const call = client.batchCreateOrders((error, response) => {
    if (error) {
      console.error('Upload failed:', error);
    } else {
      console.log(`Uploaded ${response.created_count} orders`);
    }
  });
 
  const stream = fs.createReadStream(filePath);
  const rl = readline.createInterface({ input: stream });
 
  for await (const line of rl) {
    const order = parseCSVLine(line);
    
    call.write({
      user_id: order.userId,
      items: order.items,
      delivery_address: order.address
    });
    
    // Backpressure - ждем, если буфер полон
    if (!call.writeable) {
      await new Promise(resolve => call.once('drain', resolve));
    }
  }
 
  call.end(); // Сигнализируем окончание стрима
}

Bidirectional streaming - полный дуплекс. Обе стороны шлют потоки независимо. Использовал для чата между операторами и клиентами - сообщения летят в обе стороны одновременно:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
func (s *chatServer) Chat(stream pb.ChatService_ChatServer) error {
    // Запускаем горутину для чтения входящих сообщений
    go func() {
        for {
            msg, err := stream.Recv()
            if err == io.EOF {
                return
            }
            if err != nil {
                log.Printf("Receive error: %v", err)
                return
            }
            
            log.Printf("Received: %s from %s", msg.Text, msg.UserId)
            s.broadcastMessage(msg) // Раскидываем всем подключенным
        }
    }()
    
    // Основная горутина отправляет сообщения клиенту
    for msg := range s.messageChannel {
        if err := stream.Send(msg); err != nil {
            return err
        }
    }
    
    return nil
}

Streaming усложняет обработку ошибок. Нельзя просто вернуть статус - стрим уже открыт. Приходится либо закрывать соединение, либо пересылать ошибки в теле сообщений. Я обычно добавляю в proto поле error и проверяю его на клиенте.

Interceptors для сквозной функциональности

Interceptor - это middleware, который перехватывает все RPC-вызовы. Логирование, метрики, аутентификация - типичные применения. Писать это в каждом методе сервиса - безумие. Interceptor один раз настроил и забыл.
На Go interceptor - это функция, которая оборачивает handler:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
func loggingInterceptor(ctx context.Context, req interface{}, info *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (interface{}, error) {
    start := time.Now()
    
    log.Printf("---> %s started", info.FullMethod)
    
    // Вызываем настоящий handler
    resp, err := handler(ctx, req)
    
    duration := time.Since(start)
    
    if err != nil {
        log.Printf("<--- %s failed in %v: %v", info.FullMethod, duration, err)
    } else {
        log.Printf("<--- %s completed in %v", info.FullMethod, duration)
    }
    
    return resp, err
}
 
// Регистрация при создании сервера
grpcServer := grpc.NewServer(
    grpc.UnaryInterceptor(loggingInterceptor),
)

В Java используется ServerInterceptor интерфейс:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
@Component
public class LoggingInterceptor implements ServerInterceptor {
    private static final Logger log = LoggerFactory.getLogger(LoggingInterceptor.class);
 
    @Override
    public <ReqT, RespT> ServerCall.Listener<ReqT> interceptCall(
            ServerCall<ReqT, RespT> call,
            Metadata headers,
            ServerCallHandler<ReqT, RespT> next) {
        
        String methodName = call.getMethodDescriptor().getFullMethodName();
        long startTime = System.currentTimeMillis();
        
        log.info("---> {} started", methodName);
 
        ServerCall.Listener<ReqT> listener = next.startCall(
            new ForwardingServerCall.SimpleForwardingServerCall<ReqT, RespT>(call) {
                @Override
                public void close(Status status, Metadata trailers) {
                    long duration = System.currentTimeMillis() - startTime;
                    
                    if (status.isOk()) {
                        log.info("<--- {} completed in {}ms", methodName, duration);
                    } else {
                        log.error("<--- {} failed in {}ms: {}", methodName, duration, status);
                    }
                    
                    super.close(status, trailers);
                }
            },
            headers
        );
 
        return listener;
    }
}

Node.js требует чуть больше магии - нужно оборачивать каждый метод вручную:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
function createLoggingInterceptor() {
  return function(options, nextCall) {
    return new InterceptingCall(nextCall(options), {
      start: function(metadata, listener, next) {
        const methodName = options.method_definition.path;
        const startTime = Date.now();
        
        console.log(`---> ${methodName} started`);
 
        const newListener = {
          onReceiveStatus: function(status, next) {
            const duration = Date.now() - startTime;
            
            if (status.code === grpc.status.OK) {
              console.log(`<--- ${methodName} completed in ${duration}ms`);
            } else {
              console.error(`<--- ${methodName} failed in ${duration}ms: ${status.details}`);
            }
            
            next(status);
          }
        };
 
        next(metadata, newListener);
      }
    });
  };
}
 
// Применяем к клиенту
const client = new proto.OrderService(
  serverAddress,
  grpc.credentials.createInsecure(),
  { interceptors: [createLoggingInterceptor()] }
);

Цепочка interceptors работает как матрешка - первый оборачивает второй, второй третий. Порядок имеет значение. Я обычно ставлю логирование первым, аутентификацию вторым, rate limiting третьим. Если аутентификация упадет, логирование все равно зафиксирует попытку.

Архитектурные ловушки полиглотных систем

Нажмите на изображение для увеличения
Название: Полиглотные Event-Driven системы с Kafka, RabbitMQ и gRPC на Java, Go и Node.js 5.jpg
Просмотров: 64
Размер: 97.1 Кб
ID: 11285

Полиглотная архитектура даёт гибкость, но требует жесткой дисциплины. Проблемы появляются не сразу - система работает на первых тестах, на staging всё зелёное. Но в production начинается магия: один сервис обновился, второй остался на старой версии, третий вообще не знает про изменения. И вот уже пользователи получают 500 ошибки, а ты сидишь в три часа ночи и выясняешь, почему Go-сервис не может распарсить сообщение от Java.

Версионирование - головная боль номер один

Когда все компоненты написаны на одном языке, версионирование API относительно просто. Добавил новое поле в класс - перекомпилировал зависимые модули, прогнал тесты, задеплоил. В полиглоте каждый язык живет своей жизнью. Java-сервис обновил модель данных и выкатил новую версию. Go-сервис продолжает слать старую структуру. Node.js вообще не в курсе изменений.

Обратная совместимость становится не пожеланием, а абсолютным требованием. Нельзя удалять поля - можно только помечать deprecated. Нельзя менять типы - только расширять. Я усвоил это на горьком опыте, когда изменил тип поля с int32 на int64 в protobuf. Go скомпилировался без проблем. Java тоже. Node.js клиент упал с загадочной ошибкой про переполнение числа - оказалось, JavaScript безопасно работает только с 53-битными целыми.

Правила выживания для protobuf: новые поля только с новыми номерами, старые помечаем reserved, типы меняем только на совместимые. Для изменения типа создаем новое поле, deprecated ставим на старое, мигрируем клиентов постепенно:

Java
1
2
3
4
5
6
7
8
9
message User {
  string user_id = 1;
  int32 age = 2 [deprecated = true];  // Старое поле
  int64 age_years = 3;                // Новое поле с правильным типом
  
  // Резервируем номера удаленных полей
  reserved 4, 5;
  reserved "old_email", "temp_field";
}

JSON Schema коварнее - нет встроенного механизма deprecated, приходится договариваться на уровне документации. Я пишу схемы с additionalProperties: true по умолчанию - клиент может получить неизвестные поля и просто игнорировать их. Главное - не падать на незнакомые данные:

JavaScript
1
2
3
4
5
6
7
8
9
10
// Плохо - упадет на неизвестном поле при strict mode
const user = JSON.parse(data);
console.log(user.id, user.name);
 
// Хорошо - игнорируем лишнее, работаем с нужным
const user = JSON.parse(data);
const { id, name } = user;
if (id && name) {
  processUser(id, name);
}

Avro против Protobuf - религиозная война

Protobuf хорош для RPC, но слаб для эволюции схем в хранилище. Изменил proto файл - перекомпилировал код, старые данные читаются с дефолтными значениями для новых полей. Звучит нормально, пока не столкнешься с Kafka, где события хранятся месяцами. Прочитал старое событие через новую схему - получил мусор в новых полях. Записал новое событие, старый консюмер не знает про новые поля - пропустил важные данные. Avro проектировался для такой ситуации. Схема сохраняется вместе с данными (или в Schema Registry), reader schema может отличаться от writer schema. Avro сам разруливает преобразования: поле добавлено - подставит дефолт, поле удалено - проигнорирует, тип изменен - попытается сконвертировать.

В 2022 я мигрировал event store с JSON на Avro - размер сообщений упал в три раза, а проблемы с версионированием исчезли. Но цена вопроса - сложность инфраструктуры. Нужен Schema Registry, клиенты должны уметь с ним работать, отладка усложняется - бинарные данные не посмотришь глазами.

Выбор зависит от задачи. Для RPC между сервисами - Protobuf, быстр и прост. Для event streaming с долгим хранением - Avro, гибкость важнее. Для простых REST API - JSON Schema, универсальность превыше всего.

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
// Producer на Java отправляет Avro в Kafka
@Service
public class AvroEventProducer {
  private final KafkaTemplate<String, GenericRecord> kafkaTemplate;
  private final Schema schema;
 
  public void publishOrderEvent(String orderId, OrderData data) {
      GenericRecord record = new GenericData.Record(schema);
      record.put("orderId", orderId);
      record.put("amount", data.getAmount());
      record.put("timestamp", System.currentTimeMillis());
      
      // Schema Registry автоматом прицепит схему к сообщению
      kafkaTemplate.send("orders-avro", orderId, record);
  }
}

Go читает с автоматической конвертацией схем:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
// Consumer на Go читает и преобразует
func consumeOrders() {
  consumer, _ := kafka.NewConsumer(&kafka.ConfigMap{
      "group.id": "order-processor",
      "schema.registry.url": "http://localhost:8081",
  })
 
  for {
      msg, _ := consumer.ReadMessage(-1)
      
      // Avro deserializer сам подтянет схему и преобразует
      var order OrderEvent
      err := avro.Unmarshal(msg.Value, &order)
      if err != nil {
          log.Printf("Deserialization failed: %v", err)
          continue
      }
      
      processOrder(order)
  }
}

Распределенный трейсинг - единственный способ не сойти с ума

Когда запрос проходит через пять сервисов на трех языках, дебажить логами - ад. Пользователь жалуется на медленную загрузку страницы. Смотришь логи фронтенд-сервиса - всё быстро. Смотришь бэкенд - тоже норма. А где тормозит? Может, между сервисами сеть тупит? Может, база данных подвисает? Перелопачиваешь гигабайты логов, коррелируешь по timestamp - и всё равно непонятно.

OpenTelemetry решает проблему - каждый запрос получает уникальный trace ID, который прокидывается через все сервисы. Каждый сервис добавляет span - отрезок времени своей работы. В конце получается дерево вызовов с точной привязкой по времени. Открываешь Jaeger, видишь весь путь запроса - вот он пришел на API gateway (5ms), пошел в auth service (120ms), оттуда в user service (8ms), потом в database (450ms). Баам - database тормозит, проблема локализована за минуту.
Имплементация на Java через Spring Boot Actuator почти из коробки:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
// Просто добавить зависимость и конфигурацию
@Configuration
public class TracingConfig {
  @Bean
  public OtlpHttpSpanExporter otlpHttpSpanExporter() {
      return OtlpHttpSpanExporter.builder()
          .setEndpoint("http://localhost:4318/v1/traces")
          .build();
  }
}
 
// Автоматически трейсятся все HTTP запросы и вызовы БД
// Можно добавить кастомные span'ы для важных операций
@Service
public class PaymentService {
  private final Tracer tracer;
 
  public void processPayment(String orderId) {
      Span span = tracer.spanBuilder("process_payment")
          .setAttribute("order.id", orderId)
          .startSpan();
      
      try (Scope scope = span.makeCurrent()) {
          // Вся работа внутри span
          validatePayment(orderId);
          chargeCard(orderId);
          updateOrder(orderId);
      } finally {
          span.end();
      }
  }
}

Go требует чуть больше ручной работы, но библиотека стандартная:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import (
  "go.opentelemetry.io/otel"
  "go.opentelemetry.io/otel/trace"
)
 
func processOrder(ctx context.Context, orderID string) error {
  tracer := otel.Tracer("order-service")
  ctx, span := tracer.Start(ctx, "process_order",
      trace.WithAttributes(
          attribute.String("order.id", orderID),
      ))
  defer span.End()
 
  // Передаем ctx дальше - trace ID прокинется автоматически
  if err := validateOrder(ctx, orderID); err != nil {
      span.RecordError(err)
      return err
  }
 
  return nil
}

Node.js тоже поддерживается - главное не забыть прокидывать context:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
const { trace } = require('@opentelemetry/api');
 
async function handleRequest(req, res) {
  const tracer = trace.getTracer('api-service');
  
  return tracer.startActiveSpan('handle_request', async (span) => {
    span.setAttribute('http.method', req.method);
    span.setAttribute('http.url', req.url);
    
    try {
      const result = await processRequest(req);
      res.json(result);
    } catch (error) {
      span.recordException(error);
      span.setStatus({ code: SpanStatusCode.ERROR });
      throw error;
    } finally {
      span.end();
    }
  });
}

Главная засада - trace context должен прокидываться явно или через HTTP headers. Kafka не пробрасывает автоматически, приходится добавлять в payload или headers сообщения вручную. Я сохраняю trace ID в метаданных сообщения при публикации и восстанавливаю в консюмере.

Сериализация - дьявол в деталях

Казалось бы, что может пойти не так с JSON? Все языки его поддерживают. Но копни глубже - каждый парсит по-своему. Java превращает NaN в null. Go ругается на него. JavaScript отправляет undefined как пустое поле - Go видит null, Java видит отсутствие поля. Даты - вечная боль. Java генерит ISO-8601 с миллисекундами и таймзоной: 2024-01-15T14:30:45.123Z. Go по умолчанию использует RFC-3339 без миллисекунд: 2024-01-15T14:30:45Z. JavaScript шлет Unix timestamp в миллисекундах: 1705328445123. Три сервиса - три формата, и никто не виноват.

Решение - жесткая договоренность на уровне команды. Даты только в Unix timestamp (секунды или миллисекунды, но одинаково везде). Числа с плавающей точкой только через строки если критична точность - "123.456" вместо 123.456. Boolean строго true/false, никаких 1/0 или "yes"/"no".

Protobuf снимает эти проблемы - типы строгие, сериализация детерминированная. Но требует code generation и усложняет разработку. JSON гибкий и простой, но требует дисциплины. Универсального решения нет - только компромиссы.

Демонстрационное приложение: система обработки заказов

Теория без практики - просто болтовня. Давайте соберем реальное приложение, которое можно запустить локально и посмотреть, как Kafka, RabbitMQ и gRPC работают вместе. Архитектура простая, но покрывает основные паттерны полиглотных систем.

Три сервиса на разных языках. API Gateway на Node.js принимает HTTP запросы от клиентов и публикует события в Kafka. Order Processor на Java читает события из Kafka, валидирует заказы через gRPC и отправляет задачи в RabbitMQ. Notification Worker на Go забирает задачи из RabbitMQ и отправляет уведомления пользователям. Круг замкнулся - запрос прошел через все три технологии и три языка.

Структура проекта

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
order-system/
├── docker-compose.yml
├── api-gateway/          # Node.js
│   ├── package.json
│   └── server.js
├── order-processor/      # Java
│   ├── pom.xml
│   └── src/main/java/
├── notification-worker/  # Go
│   ├── go.mod
│   └── main.go
└── proto/
    └── validation.proto

API Gateway на Node.js

Принимает заказы по REST и публикует в Kafka. Graceful shutdown обязателен - иначе можешь потерять сообщения в момент деплоя:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
const express = require('express');
const { Kafka } = require('kafkajs');
 
class APIGateway {
  constructor() {
    this.app = express();
    this.app.use(express.json());
    
    this.kafka = new Kafka({
      clientId: 'api-gateway',
      brokers: ['kafka:9092'],
      retry: { retries: 5 }
    });
    
    this.producer = this.kafka.producer({
      idempotent: true,
      maxInFlightRequests: 1
    });
    
    this.isShuttingDown = false;
  }
 
  async start() {
    await this.producer.connect();
    
    this.app.post('/orders', async (req, res) => {
      if (this.isShuttingDown) {
        return res.status(503).json({ error: 'Service shutting down' });
      }
 
      const { userId, items, address } = req.body;
      const orderId = `ORD-${Date.now()}-${Math.random().toString(36).substr(2, 9)}`;
 
      const event = {
        eventType: 'OrderCreated',
        orderId,
        userId,
        items,
        address,
        timestamp: Date.now()
      };
 
      try {
        await this.producer.send({
          topic: 'order-events',
          messages: [{
            key: orderId,
            value: JSON.stringify(event)
          }]
        });
 
        res.status(201).json({ orderId, status: 'pending' });
      } catch (error) {
        console.error('Failed to publish event:', error);
        res.status(500).json({ error: 'Order processing failed' });
      }
    });
 
    this.server = this.app.listen(3000, () => {
      console.log('API Gateway listening on :3000');
    });
 
    this.setupGracefulShutdown();
  }
 
  setupGracefulShutdown() {
    const shutdown = async (signal) => {
      console.log(`${signal} received, starting graceful shutdown...`);
      this.isShuttingDown = true;
 
      // Перестаем принимать новые запросы
      this.server.close(() => {
        console.log('HTTP server closed');
      });
 
      // Флашим все pending сообщения
      await this.producer.disconnect();
      console.log('Kafka producer disconnected');
 
      process.exit(0);
    };
 
    process.on('SIGTERM', () => shutdown('SIGTERM'));
    process.on('SIGINT', () => shutdown('SIGINT'));
  }
}
 
const gateway = new APIGateway();
gateway.start().catch(console.error);

Order Processor на Java

Читает из Kafka, валидирует через gRPC, шлет задачи в RabbitMQ. Транзакции Kafka гарантируют атомарность:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
@SpringBootApplication
public class OrderProcessorApplication {
    public static void main(String[] args) {
        SpringApplication.run(OrderProcessorApplication.class, args);
    }
}
 
@Service
public class OrderEventProcessor {
    private final KafkaTemplate<String, String> kafkaTemplate;
    private final RabbitTemplate rabbitTemplate;
    private final ValidationServiceGrpc.ValidationServiceBlockingStub validationClient;
 
    @KafkaListener(topics = "order-events", groupId = "order-processor")
    public void processOrderEvent(ConsumerRecord<String, String> record) {
        ObjectMapper mapper = new ObjectMapper();
        JsonNode event = mapper.readTree(record.value());
 
        String orderId = event.get("orderId").asText();
        String userId = event.get("userId").asText();
 
        try {
            // Валидация через gRPC
            ValidationRequest request = ValidationRequest.newBuilder()
                .setOrderId(orderId)
                .setUserId(userId)
                .build();
 
            ValidationResponse response = validationClient
                .withDeadline(Deadline.after(2, TimeUnit.SECONDS))
                .validateOrder(request);
 
            if (response.getValid()) {
                // Отправляем задачу на уведомление
                Map<String, Object> notification = Map.of(
                    "type", "order_confirmed",
                    "orderId", orderId,
                    "userId", userId
                );
 
                rabbitTemplate.convertAndSend(
                    "notifications.exchange",
                    "notification.email",
                    mapper.writeValueAsString(notification)
                );
 
                log.info("Order {} processed successfully", orderId);
            } else {
                log.warn("Order {} validation failed", orderId);
            }
 
        } catch (Exception e) {
            log.error("Failed to process order {}", orderId, e);
            throw new RuntimeException(e);
        }
    }
 
    @PreDestroy
    public void cleanup() {
        log.info("Starting graceful shutdown...");
        // Spring автоматом закроет Kafka consumer с drain timeout
        // и дождется завершения обработки текущих сообщений
    }
}

Notification Worker на Go

Простой воркер, который читает из RabbitMQ и "отправляет" уведомления. В реальности тут был бы вызов SMTP или push-сервиса:

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
package main
 
import (
    "context"
    "encoding/json"
    "log"
    "os"
    "os/signal"
    "syscall"
    "time"
 
    "github.com/streadway/amqp"
)
 
type Notification struct {
    Type    string `json:"type"`
    OrderID string `json:"orderId"`
    UserID  string `json:"userId"`
}
 
type NotificationWorker struct {
    conn    *amqp.Connection
    channel *amqp.Channel
    done    chan bool
}
 
func NewWorker(url string) (*NotificationWorker, error) {
    conn, err := amqp.Dial(url)
    if err != nil {
        return nil, err
    }
 
    ch, err := conn.Channel()
    if err != nil {
        return nil, err
    }
 
    ch.Qos(3, 0, false) // Prefetch 3 messages
 
    return &NotificationWorker{
        conn:    conn,
        channel: ch,
        done:    make(chan bool),
    }, nil
}
 
func (w *NotificationWorker) Start() error {
    msgs, err := w.channel.Consume(
        "notifications.queue",
        "",
        false, // manual ack
        false,
        false,
        false,
        nil,
    )
    if err != nil {
        return err
    }
 
    log.Println("Worker started, waiting for messages...")
 
    go func() {
        for msg := range msgs {
            var notif Notification
            if err := json.Unmarshal(msg.Body, &notif); err != nil {
                log.Printf("Invalid message: %v", err)
                msg.Nack(false, false)
                continue
            }
 
            log.Printf("Sending %s notification for order %s", 
                notif.Type, notif.OrderID)
 
            // Имитация отправки
            time.Sleep(100 * time.Millisecond)
 
            msg.Ack(false)
        }
        w.done <- true
    }()
 
    return nil
}
 
func (w *NotificationWorker) GracefulShutdown(timeout time.Duration) {
    log.Println("Starting graceful shutdown...")
 
    // Закрываем канал - новые сообщения не придут
    w.channel.Close()
 
    // Ждем завершения обработки текущих сообщений
    select {
    case <-w.done:
        log.Println("All messages processed")
    case <-time.After(timeout):
        log.Println("Shutdown timeout reached")
    }
 
    w.conn.Close()
}
 
func main() {
    worker, err := NewWorker("amqp://guest:guest@rabbitmq:5672/")
    if err != nil {
        log.Fatal(err)
    }
 
    if err := worker.Start(); err != nil {
        log.Fatal(err)
    }
 
    // Graceful shutdown on signal
    sigChan := make(chan os.Signal, 1)
    signal.Notify(sigChan, syscall.SIGINT, syscall.SIGTERM)
 
    <-sigChan
    worker.GracefulShutdown(30 * time.Second)
}

Docker Compose для запуска всей системы

Одна команда - и весь стек поднимается локально:

YAML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
version: '3.8'
 
services:
  zookeeper:
    image: confluentinc/cp-zookeeper:7.5.0
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181
 
  kafka:
    image: confluentinc/cp-kafka:7.5.0
    depends_on: [zookeeper]
    ports: ["9092:9092"]
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092
      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1
 
  rabbitmq:
    image: rabbitmq:3-management
    ports: ["5672:5672", "15672:15672"]
 
  api-gateway:
    build: ./api-gateway
    depends_on: [kafka]
    ports: ["3000:3000"]
    environment:
      KAFKA_BROKERS: kafka:9092
 
  order-processor:
    build: ./order-processor
    depends_on: [kafka, rabbitmq]
    environment:
      KAFKA_BROKERS: kafka:9092
      RABBITMQ_HOST: rabbitmq
 
  notification-worker:
    build: ./notification-worker
    depends_on: [rabbitmq]
    environment:
      RABBITMQ_URL: amqp://guest:guest@rabbitmq:5672/

Запуск тривиален: docker-compose up. Система стартует, создает топики и очереди автоматом. Отправляешь POST на http://localhost:3000/orders - видишь, как событие проходит через все компоненты. Логи показывают полную трассировку обработки. Останавливаешь через docker-compose down - все сервисы корректно завершаются, сообщения не теряются благодаря graceful shutdown.

Это базовый скелет, который можно расширять - добавлять метрики, трейсинг, мониторинг очередей. Но основа рабочая, проверенная и готовая к экспериментам.

Тестирование отказоустойчивости

Система запущена, но как она поведет себя под нагрузкой? Что случится, если один из сервисов упадет посреди обработки? В 2023 я тестировал похожую архитектуру перед выкаткой в production - нашел три критических бага, которые никогда не проявились бы на staging.

Первый тест - убить Kafka посреди обработки. API Gateway отправляет заказы, все работает. Останавливаю контейнер: docker stop order-system-kafka-1. API Gateway начинает логировать ошибки подключения, но не падает - библиотека kafkajs делает retry автоматически. Через 30 секунд поднимаю Kafka обратно - Gateway переподключается, накопившиеся сообщения улетают пачкой. Ни один заказ не потерялся благодаря встроенным retry и буферизации.

Второй тест жестче - убить Order Processor во время обработки события. Запускаю нагрузку, дожидаюсь, пока процессор начнет активно работать, и docker kill без graceful shutdown. Смотрю в Kafka - offset последнего обработанного сообщения остался на прежнем месте. Поднимаю процессор - он начинает с того же offset, переобрабатывает "потерянные" сообщения. Идемпотентность на уровне application logic критична - без проверки "уже обработано?" получим дубликаты уведомлений.

Третий тест - перегрузить RabbitMQ. Отключаю Notification Worker и начинаю слать заказы. Очередь notifications.queue разрастается - 1000, 5000, 10000 сообщений. RabbitMQ стабильно держит, но memory footprint растет. Включаю воркер обратно - постепенно очередь опустошается. Но тут выявляется проблема: если очередь большая, воркер начинает с первых сообщений, а свежие висят в конце. Для критичных уведомлений это неприемлемо.

Решение - priority queues и несколько воркеров. Делю уведомления на high-priority (подтверждение заказа) и low-priority (маркетинг). Запускаю три воркера на high, один на low. Теперь критичные уведомления улетают моментально, даже если low-priority очередь забита.

Go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
// Модифицированный воркер с поддержкой приоритетов
func (w *NotificationWorker) StartWithPriority(queueName string, priority int) error {
  // Для high-priority ставим больший prefetch
  prefetch := map[int]int{
      10: 5, // High
      5:  3, // Medium  
      1:  1, // Low
  }[priority]
  
  w.channel.Qos(prefetch, 0, false)
  
  msgs, err := w.channel.Consume(queueName, "", false, false, false, false, nil)
  if err != nil {
      return err
  }
 
  go func() {
      for msg := range msgs {
          // Обработка с учетом приоритета
          processingTime := time.Millisecond * time.Duration(100/priority)
          time.Sleep(processingTime)
          
          msg.Ack(false)
      }
  }()
 
  return nil
}

Нагрузочное тестирование с k6

Теоретические рассуждения хороши, но числа лучше. Использую k6 - JavaScript-based load testing tool, который умеет в HTTP, gRPC и WebSocket. Сценарий простой: создаем 100 виртуальных пользователей, каждый отправляет заказы с интервалом в секунду. Смотрим, что сломается первым.

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
import http from 'k6/http';
import { check, sleep } from 'k6';
 
export const options = {
  stages: [
    { duration: '1m', target: 50 },   // Разгон до 50 пользователей
    { duration: '3m', target: 50 },   // Держим нагрузку
    { duration: '1m', target: 100 },  // Пик
    { duration: '2m', target: 100 },  // Держим пик
    { duration: '1m', target: 0 },    // Спад
  ],
  thresholds: {
    http_req_duration: ['p(95)<500'], // 95% запросов быстрее 500ms
    http_req_failed: ['rate<0.01'],   // Меньше 1% ошибок
  },
};
 
export default function() {
  const payload = JSON.stringify({
    userId: [INLINE]user-${__VU}-${__ITER}[/INLINE],
    items: [
      { productId: 'prod-1', quantity: 2, price: 29.99 },
      { productId: 'prod-2', quantity: 1, price: 49.99 },
    ],
    address: {
      street: '123 Main St',
      city: 'Test City',
      postalCode: '12345',
      country: 'US'
    }
  });
 
  const params = {
    headers: { 'Content-Type': 'application/json' },
  };
 
  const res = http.post('http://localhost:3000/orders', payload, params);
 
  check(res, {
    'status is 201': (r) => r.status === 201,
    'response has orderId': (r) => JSON.parse(r.body).orderId !== undefined,
  });
 
  sleep(1);
}

Запуск: k6 run load-test.js. Через пять минут получаю отчет. API Gateway держит 100 RPS без проблем, latency p95 = 120ms. Kafka справляется легко - это всего 100 событий в секунду, детский лепет для него. Order Processor начинает тормозить на 80 RPS - видимо, gRPC валидация узкое место. RabbitMQ стабилен, но очередь медленно растет - воркеров не хватает.

Масштабирую: docker-compose up --scale notification-worker=3. Три воркера распределяют нагрузку, очередь перестает расти. Повторяю тест с 200 виртуальными пользователями - теперь узкое место Order Processor. Добавляю реплики: docker-compose up --scale order-processor=2. Система держит 150 RPS стабильно.

Мониторинг в реальном времени

Логи в консоли - хорошо для отладки, но в production нужна визуализация. Prometheus + Grafana - классическая связка. Добавляю экспорт метрик в каждый сервис. Node.js API Gateway через prom-client:

JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
const promClient = require('prom-client');
 
const register = new promClient.Registry();
promClient.collectDefaultMetrics({ register });
 
const ordersCreated = new promClient.Counter({
  name: 'orders_created_total',
  help: 'Total orders created',
  registers: [register]
});
 
const orderCreationDuration = new promClient.Histogram({
  name: 'order_creation_duration_seconds',
  help: 'Order creation duration',
  buckets: [0.1, 0.5, 1, 2, 5],
  registers: [register]
});
 
// В обработчике
app.post('/orders', async (req, res) => {
  const end = orderCreationDuration.startTimer();
  
  try {
    // ... создание заказа
    ordersCreated.inc();
  } finally {
    end();
  }
});
 
// Endpoint для Prometheus
app.get('/metrics', (req, res) => {
  res.set('Content-Type', register.contentType);
  res.end(register.metrics());
});

Java через Micrometer - интеграция с Spring Boot из коробки:

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
@Component
public class OrderMetrics {
  private final Counter ordersProcessed;
  private final Timer processingDuration;
 
  public OrderMetrics(MeterRegistry registry) {
      this.ordersProcessed = Counter.builder("orders.processed")
          .description("Total orders processed")
          .register(registry);
          
      this.processingDuration = Timer.builder("orders.processing.duration")
          .description("Order processing time")
          .register(registry);
  }
 
  public void recordProcessing(Runnable task) {
      processingDuration.record(task);
      ordersProcessed.increment();
  }
}

Grafana дашборд показывает throughput, latency, error rate для каждого сервиса. Когда что-то идет не так - вижу моментально. Kafka lag растет? Добавить консюмеров. RabbitMQ очередь разбухает? Масштабировать воркеры. API Gateway memory leaking? Пора искать утечку.

Эта система - живой организм, который требует постоянного внимания. Но архитектура позволяет менять компоненты независимо. Заменить Node.js на Go в Gateway? Легко, контракты те же. Добавить Rust-воркер вместо Go? Без проблем, RabbitMQ протокол универсальный. Именно в этой гибкости - главное преимущество полиглотного подхода.

Java 8 и rabbitmq
Пишу приложение, которое должно слушать очередь и что-то делать. На сайте самого rabbitmq, есть...

JUnit, данные из XML, Data Driven Testing
Пытаюсь организовать data-driven test (DDT) на JUnit c взятием тестовых данных из XML-файла. Всё...

event.returnValue is deprecated. Please use the standard event.preventDefault() instead
Выдаёт ошибку event.returnValue is deprecated. Please use the standard event.preventDefault()...

Получить определенные данные из List<Event> events1 и добавить их в другой List<Event> events2
Здравствуйте. Имеется класс: package com.example.lesha.myapplication; public class Event {...

Ошибка Added non-passive event listener to a scroll-blocking event
Здравствуйте. Подскажите как можно исправить ошибки в Jquery. Они не критичные, сайт работает и...

node:events:306 throw er; // Unhandled 'error' event
node:events:306 throw er; // Unhandled 'error' event ^ Error: spawn...

Node.js | Запрос по http.request выкидывает в ошибку - throw er; // Unhandled 'error' event
Стоит мне задействовать метод request объекта http то я сразу вижу ошибку в консоли ...

Kafka consumer returns null
Есть Кафка. Создан топик. Consumer и producer, которые идут в комплекте, работают как положено....

Spring Kafka: Запись в базу данных и чтение из неё
Гайз, нужен хэлп. Киньте инфу или подскажите как записывать данные из Kafka в базу данных, а потом...

Написание Kafka Server Mock
Приложение передает некоторые сообщения по TCP в Kafka Server. Нужно реализовать заглушку Kafka...

Spring Boot + Kafka, запись данных после обработки
Добрый вечер, много времени уже мучаюсь над одной проблемой, я извиняюсь, может мало ли вдруг такая...

Размещено в Без категории

« Event-Driven архитектура с Kafka: Outbox Pattern, Exactly-Once и идемпотентные консьюмеры Главная страница Архитектура телеграм-ботов на Python и Феномен 15 миллиардов сообщений (1) »

Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.

Всего комментариев 0

Комментарии

Новые блоги и статьи Все статьи Все блоги /
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ФедосеевПавел 06.01.2026 Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .	Модель микоризы: классовый агентный подход 2 anaschu 06.01.2026 репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .	Расчёт токов в цепи постоянного тока igorrr37 05.01.2026 / * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .	Новый CodeBlocs. Версия 25.03 palva 04.01.2026 Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход anaschu 02.01.2026 Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .	Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Programma_Boinc 28.12.2025 Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / ********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / ********/ gallery/ bKBkQFf Пост отсюда. . .	Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Programma_Boinc 26.12.2025 Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .	Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Programma_Boinc 23.12.2025 Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .

Сообщение форума

Отменить изменения