[экспериментальный] MaterializedPostgreSQL
Создает базу данных ClickHouse с исходным дампом данных таблиц PostgreSQL и запускает процесс репликации, т.е. выполняется применение новых изменений в фоне, как эти изменения происходят в таблице PostgreSQL в удаленной базе данных PostgreSQL.
Сервер ClickHouse работает как реплика PostgreSQL. Он читает WAL и выполняет DML запросы. Данные, полученные в результате DDL запросов, не реплицируются, но сами запросы могут быть обработаны (описано ниже).
Создание базы данных
Параметры движка
host:port
— адрес сервера PostgreSQL.database
— имя базы данных на удалённом сервере.user
— пользователь PostgreSQL.password
— пароль пользователя.
Динамическое добавление новых таблиц в репликацию
При указании конкретного списка таблиц в базе с помощью настройки materialized_postgresql_tables_list, он будет обновлен (в .sql
метаданных) на актуальный с учетом таблиц, добавленных с помощью запроса ATTACH TABLE
.
Динамическое удаление таблиц из репликации
Настройки
Настройки можно при необходимости изменить с помощью DDL запроса. Однако с помощью него нельзя изменить настройку materialized_postgresql_tables_list
, для обновления списка таблиц в данной настройке нужно использовать запрос ATTACH TABLE
.
Требования
-
Настройка wal_level должна иметь значение
logical
, параметрmax_replication_slots
должен быть равен по меньшей мере2
в конфигурационном файле в PostgreSQL. -
Каждая реплицируемая таблица должна иметь один из следующих репликационных идентификаторов:
-
первичный ключ (по умолчанию)
-
индекс
Первичный ключ всегда проверяется первым. Если он отсутствует, то проверяется индекс, определенный как replica identity index (репликационный идентификатор). Если индекс используется в качестве репликационного идентификатора, то в таблице должен быть только один такой индекс. Вы можете проверить, какой тип используется для указанной таблицы, выполнив следующую команду:
Репликация TOAST-значений не поддерживается. Для типа данных будет использоваться значение по умолчанию.
Пример использования
Примечания
Сбой слота логической репликации
Слоты логической репликации, которые есть на основном сервере, не доступны на резервных репликах.
Поэтому в случае сбоя новый основной сервер (который раньше был резевным) не будет знать о слотах репликации, которые были созданы на вышедшем из строя основном сервере. Это приведет к нарушению репликации из PostgreSQL.
Решением этой проблемы может стать ручное управление слотами репликации и определение постоянного слота репликации (об этом можно прочитать здесь). Этот слот нужно передать с помощью настройки materialized_postgresql_replication_slot, и он должен быть экспортирован в параметре EXPORT SNAPSHOT
. Идентификатор снэпшота нужно передать в настройке materialized_postgresql_snapshot.
Имейте в виду, что это стоит делать только если есть реальная необходимость. Если такой необходимости нет, или если нет полного понимания того, как это работает, то самостоятельно слот репликации конфигурировать не стоит, он будет создан таблицей.
Пример (от @bchrobot)
- Сконфигурируйте слот репликации в PostgreSQL.
- Дождитесь готовности слота репликации, затем инициируйте транзакцию и экспортируйте идентификатор снэпшота этой транзакции:
- Создайте базу данных в ClickHouse:
- Когда начнет выполняться репликация БД в ClickHouse, прервите транзакцию в PostgreSQL. Убедитесь, что репликация продолжается после сбоя: