Внимание! Это фишинговый сайт, не вводите в нем свои личные данные!

PG_EXPECTO и математическая статистика: как метод majority vote повышает достоверность рекомендаций ИИ для PostgreSQL⁠⁠

[моё] Аналитика Программирование Python Тестирование Oracle Postgresql Аналитик База данных Системный анализ Системный аналитик SQL Microsoft Excel IT Самообразование Фриланс Длиннопост

1 день назад

Взято с основного технического канала Postgres DBA (возможны правки в исходной статье).

pg_expecto: Коллективный разум вместо случайных ошибок

Может ли ИИ заменить эксперта по PostgreSQL?

Искусственный интеллект все активнее интегрируется в задачи оптимизации баз данных, однако вопрос о его способности полностью заменить человека-эксперта остается открытым. В представленном исследовании анализируется работа нейросетевой модели DeepSeek при оценке производительности СУБД PostgreSQL с применением статистического метода «majority vote» (голосование). В рамках работы выполнен сравнительный анализ двух сценариев выборки — с использованием пяти и одиннадцати независимых прогонов модели — с целью оценки эффективности данного подхода для верификации выводов, минимизации случайных ошибок и повышения надежности итоговых рекомендаций.

Результаты демонстрируют, что даже наиболее совершенная модель ИИ сохраняет статус инструмента: нейросеть эффективно выявляет закономерности и диагностирует узкие места (такие как дефицит оперативной памяти или перегрузка дисковой подсистемы), однако окончательная интерпретация результатов в контексте конкретной системы по-прежнему требует участия опытного администратора баз данных. Таким образом, искусственный интеллект не заменяет эксперта, но становится его высокоэффективным ассистентом, обеспечивая фильтрацию случайных ошибок и существенную экономию времени на рутинном анализе.

Постановка проблемы

В отличие от классического программного обеспечения, нейросеть не выполняет жестко заданный алгоритм. Она 🔴генерирует ответ путем вероятностного предсказания следующей единицы информации (токена).🔴

...

Для инженера по производительности это означает катастрофу воспроизводимости.

Доверие к инструменту будет подорвано, если на одних и тех же данных он будет каждый раз давать разные ответы, что обесценивает анализ с научной точки зрения, где главное — воспроизводимость и точность выводов.

Постановка эксперимента

Провести серию экспериментов по тестированию метода "majority vote (Голосование)"

ℹ️Метод majority vote (Голосование): Модель запускается N раз (например, 5 раз) на одних и тех же данных. Ответы записываются. Если 4 из 5 раз нейросеть указала на проблему с вводом-выводом — это, скорее всего, достоверный сигнал. Если голоса разделились поровну — данные требуют более глубокого анализа человеком. Это снижает влияние «случайной ошибки» конкретного прогона.

1. Результат голосования при N=5

На основе анализа пяти отчетов (test1.txt — test5.txt) с применением метода «majority vote» (голосование 5 из 5) сформирован итоговый отчет. Рекомендации ранжированы по частоте упоминаний (от наиболее консенсусных к менее очевидным).

Достоверные рекомендации по оптимизации производительности

Ниже приведены рекомендации, которые были подтверждены как минимум в 4 из 5 отчетов. Это наиболее надежные выводы, требующие первоочередного внимания.

☑️Оптимизация критического запроса (5 из 5 отчетов)

Во всех пяти отчетах однозначно идентифицирован главный источник проблем производительности — выполнение хранимой процедуры/функции scenario1() (идентификатор запроса -2753873076014177353). На него приходится более 85% всех ожиданий ввода-вывода.

Рекомендация: Провести немедленный и детальный разбор плана выполнения этого запроса с помощью EXPLAIN (ANALYZE, BUFFERS). Цель — выявить причины огромного количества чтений с диска (операции DataFileRead), проверить эффективность индексов (отсутствие Seq Scan) и логику самой функции для снижения числа читаемых блоков.

☑️Настройка параметров виртуальной памяти ядра (vm.dirty_*) (5 из 5 отчетов)

Высокие или неоптимальные значения порогов «грязных» страниц (vm.dirty_background_ratio / vm.dirty_ratio) напрямую коррелируют с ростом процессов в состоянии b (непрерываемый сон, ожидание IO) и пиковыми нагрузками на запись. Это усугубляет дисковый bottleneck.
Рекомендация: Снизить пороги для более раннего и плавного сброса данных на диск. Консенсусные значения (в разных отчетах варьируются):
vm.dirty_background_ratio рекомендуется уменьшить до 2-3% (было 5-10%).
vm.dirty_ratio рекомендуется уменьшить до 8-10% (было 15-30%).
Действие: Внести изменения в /etc/sysctl.conf и применить их.

☑️Анализ и апгрейд дисковой подсистемы (I/O Subsystem) (5 из 5 отчетов)

Метрики procs -> b (процессы в ожидании IO) и cpu -> wa (iowait) стабильно высоки (более 10% в 100% времени). Это явный признак того, что дисковая подсистема является узким местом, несмотря на наличие отдельных томов для WAL и данных.

Рекомендация:

Провести стресс-тестирование дисков с помощью iostat -x 1, fio или pg_test_fsync для определения реальной задержки (await), утилизации (%util) и количества IOPS.
Убедиться, что диски vdd (данные) и vdc (WAL) являются физически разными и быстрыми (NVMe с гарантированной производительностью), а не общим виртуальным хранилищем с ограничениями.

☑️Увеличение оперативной памяти (RAM) (5 из 5 отчетов)

Во всех отчетах зафиксирован критический сигнал тревоги: уровень свободной оперативной памяти постоянно ниже 5% от общего объема (7.5 ГБ). Это создает сильное давление на память, вытесняет кэш страниц ОС и увеличивает нагрузку на диск.

Рекомендация: Увеличить объем ОЗУ сервера как минимум до 16 ГБ (в идеале до 32 ГБ). Это наиболее эффективная долгосрочная мера для расширения кэширования данных и снижения количества обращений к диску.

☑️Настройка контрольных точек (Checkpoint) и WAL (5 из 5 отчетов)

Текущий размер WAL (max_wal_size = 4 ГБ) может быть недостаточным, что приводит к частым контрольным точкам и пиковым нагрузкам на запись.

Рекомендация: Увеличить max_wal_size до 8-16 ГБ (или даже 32 ГБ), чтобы сгладить нагрузку на диск и уменьшить частоту синхронных записей во время контрольных точек. Включить log_checkpoints = on для мониторинга.

☑️Мониторинг и проактивное обнаружение (4 из 5 отчетов)

Необходимо внедрить систему сбора метрик для раннего выявления подобных инцидентов в будущем.

Рекомендация: Настроить алерты по критическим метрикам: свободная RAM < 5%, iowait (wa) > 10%, количество процессов в состоянии b > количества ядер CPU, размер dirty pages. Регулярно анализировать данные из pg_stat_statements и pg_wait_sampling.

☑️Корректировка shared_buffers (4 из 5 отчетов)

Увеличение shared_buffers до 3 ГБ (во втором эксперименте) дало некоторый прирост, но hit ratio остался на уровне ~97%, что указывает на нехватку памяти для рабочего набора данных.

Рекомендация: Хотя в отчетах есть разночтения (кто-то предлагает еще увеличить, кто-то — уменьшить в пользу кэша ОС), консенсус в том, что текущий размер в 3 ГБ при дефиците общей памяти требует пересмотра. Оптимальным видится увеличение RAM, а затем повторная калибровка shared_buffers до 25-40% от нового объема ОЗУ.

Возможные случайные ошибки

Некоторые рекомендации встретились только в одном или двух отчетах и не получили большинства голосов. Это может быть связано с неверной интерпретацией данных в конкретном прогоне модели.

❌Снижение shared_buffers до 2–2.5 ГБ

Где встретилось: В отчете test4.txt.
Предполагаемая причина ошибки: Эта рекомендация противоречит выводам остальных четырех отчетов, где предлагается либо оставить текущий объем, либо увеличить его. Вероятно, модель в этом прогоне сделала неверный акцент на том, что shared_buffers отнимает память у кэша ОС (page cache), посчитав это первостепенной проблемой. Однако при тотальном дефиците памяти (менее 5% свободной RAM) уменьшение shared_buffers лишь незначительно увеличит кэш ОС, но не решит проблему нехватки памяти в принципе. Корень проблемы — общий объем RAM, а не распределение между кэшами PostgreSQL и ОС.

❌Упоминание LWLock как скрытой проблемы

Где встретилось: В отчете test2.txt.
Предполагаемая причина ошибки: Модель могла придать излишнее значение наличию статистически значимой корреляции (p<0.05) для LWLock, хотя в тексте самого отчета указано, что вклад этих блокировок ничтожно мал ("ВКО <0.01"). В условиях доминирующей проблемы с IO (85% ожиданий), попытка углубиться в микроскопические корреляции LWLock является избыточной и отвлекает от главной цели. Это пример «ложного позитива» при анализе больших данных.

❌Некорректная интерпретация autovacuum_work_mem

Где встретилось: В отчете test4.txt.
Предполагаемая причина ошибки: В отчете test4.txt рекомендуется проверить, достаточно ли autovacuum_work_mem (512 МБ). Однако в условиях жесточайшего дефицита оперативной памяти (менее 5% свободной RAM) любые рассуждения об увеличении памяти для автовакуума выглядят преждевременными и потенциально опасными, так как могут усугубить memory pressure. Проблема с автовакуумом (если она есть) является вторичной по отношению к проблеме нехватки памяти и перегрузки диска. Модель могла ошибочно воспринять штатный параметр как проблемный, не оценив общий контекст нехватки ресурсов.

2. Результат голосования при N=11

Ниже представлен анализ 11 отчетов с использованием метода «majority vote». Рекомендации, упомянутые в 6 и более отчетах (т.е. более чем в половине), считаются достоверным сигналом. Рекомендации, встретившиеся менее 3 раз, отнесены к возможным случайным ошибкам.

Достоверные рекомендации по оптимизации производительности

(отранжировано по частоте упоминаний – от самых частых к менее частым)

☑️Оптимизация проблемного запроса select scenario1() (queryid -2753873076014177353)

Частота: 11 из 11
Суть: Запрос генерирует ~85% всех ожиданий ввода-вывода (DataFileRead). Требуется немедленный разбор с EXPLAIN (ANALYZE, BUFFERS), проверка индексов, рефакторинг или секционирование таблиц.

☑️Настройка параметров виртуальной памяти ядра ОС (vm.dirty_*)

Частота: 11 из 11
Суть: Высокая корреляция размера «грязных» страниц с процессами в состоянии b (ожидание I/O) и записанными блоками (bo). Рекомендуется снижение порогов: vm.dirty_background_ratio до 2–5% и vm.dirty_ratio до 8–15% для более раннего старта фоновой записи и предотвращения блокировок.

☑️Увеличение оперативной памяти (RAM)

Частота: 11 из 11
Суть: Во всех отчетах зафиксирован критический уровень свободной RAM (<5% при 7.5 ГБ). Это вызывает memory pressure, вытеснение кэша страниц ОС и рост дисковой нагрузки. Рекомендуется расширение ОЗУ как минимум до 16–32 ГБ.

☑️Увеличение max_wal_size

Частота: 9 из 11
Суть: Текущий размер (4 ГБ) приводит к частым контрольным точкам и пиковым нагрузкам на запись. Увеличение до 8–16 ГБ (с учетом свободного места на /wal) позволит сгладить нагрузку на дисковую подсистему.

☑️Анализ дисковой подсистемы с помощью iostat

Частота: 9 из 11
Суть: Необходимо провести замеры %util, await, avgqu-sz для устройств /dev/vdd (данные) и /dev/vdc (WAL), чтобы подтвердить, что диск является узким местом, и определить, какое именно устройство не справляется.

☑️Проверка физического разделения дисков для WAL и данных

Частота: 7 из 11
Суть: В конфигурации используется разделение на тома (/wal на vdc, /data на vdd). Рекомендуется убедиться, что эти логические тома находятся на физически разных дисках, а не конкурируют за один и тот же накопитель.

☑️Корректировка shared_buffers

Частота: 7 из 11
Суть: Есть два противоположных мнения (увеличить до 4–4.5 ГБ или уменьшить до 2–2.5 ГБ для экономии места под кэш ОС). Однако сам факт необходимости пересмотра этого параметра на фоне дефицита памяти является достоверным сигналом.

☑️Настройка контрольных точек (checkpoint_completion_target)

Частота: 6 из 11
Суть: Увеличение checkpoint_completion_target с дефолтного 0.5 до 0.9 для растягивания записи "грязных" страниц во времени и сглаживания пиковых нагрузок.

☑️Настройка планировщика ввода-вывода (I/O Scheduler)

Частота: 6 из 11
Суть: Для SSD/NVMe в виртуальной среде (KVM) рекомендуется использовать планировщик none (или noop), чтобы избежать лишних накладных расходов.

☑️Проверка параметров random_page_cost и effective_io_concurrency

Частота: 6 из 11
Суть: Текущие значения (1.1 и 500) соответствуют NVMe. Однако требуется убедиться, что фактическая производительность дисков соответствует этим настройкам (возможно, требуется калибровка с помощью fio).

☑️Мониторинг переключений контекста (cs) и прерываний (in)

Частота: 6 из 11
Суть: Высокая корреляция между cs и in указывает на высокую нагрузку на ядро, вызванную дисковой системой. Рекомендация по анализу perf и настройке affinity для прерываний.

Возможные случайные ошибки

*(рекомендации, встретившиеся в 1-2 отчетах)*

❌Увеличение work_mem до 128 МБ

Где встретилось: Отчет №2.
Вероятная причина ошибки: Недооценка количества одновременных соединений. При max_connections = 239 увеличение work_mem до 128 МБ может привести к тому, что общий объем выделяемой памяти под сортировки/хэши превысит доступную RAM, усугубив проблему нехватки памяти (которая и так критична).

❌Отключение synchronous_commit

Где встретилось: Отчеты №3, №6.
Вероятная причина ошибки: Это рискованная рекомендация, которая может привести к потере данных при сбое. Она уместна только в том случае, если бизнес-требования допускают потерю последних транзакций. В контексте общей проблемы (узкое место диска) это паллиатив, а не лечение, и предлагается без анализа рисков для целостности.

❌Использование материализованных представлений

Где встретилось: Отчет №4.
Вероятная причина ошибки: Предложение использовать материализованные представления без анализа частоты обновления данных. Если данные изменяются часто, поддержка материализованных представлений в актуальном состоянии может создать дополнительную, еще более тяжелую нагрузку на запись.

❌Увеличение autovacuum_max_workers до 8

Где встретилось: Отчет №4.
Вероятная причина ошибки: При 8 ядрах CPU и уже существующей дисковой перегрузке, увеличение числа рабочих процессов автовакуума может усилить конкуренцию за диск и ухудшить ситуацию, а не улучшить ее.

❌Уменьшение max_wal_size для более частых контрольных точек

Где встретилось: Отчеты №8, №9.
Вероятная причина ошибки: Эта рекомендация противоречит основному тренду (увеличение max_wal_size). В условиях высокой нагрузки на запись частые контрольные точки приведут к еще более интенсивной пиковой записи, что противопоказано при перегруженном диске. Вероятно, это результат неверной интерпретации данных.

3. Анализ влияния количества отчетов в голосовании на достоверные рекомендации и случайные ошибки

Сравнительный анализ результатов голосования для N=5 и N=11

Введение

Метод majority vote применялся к двум наборам отчетов: первый включал 5 прогонов модели, второй – 11 прогонов. Цель – оценить, как увеличение числа голосующих отчетов влияет на достоверность итоговых рекомендаций и снижение случайных ошибок. Ниже представлены ключевые наблюдения и выводы.

☑️Достоверные рекомендации (основной консенсус)

При N=5 (порог ≥4 голосов)

Оптимизация проблемного запроса (5/5) – главный источник I/O ожиданий.
Настройка параметров виртуальной памяти ядра (vm.dirty_*) (5/5).
Анализ и апгрейд дисковой подсистемы (5/5).
Увеличение оперативной памяти (5/5).
Настройка контрольных точек и WAL (5/5).
Мониторинг и проактивное обнаружение (4/5).
Корректировка shared_buffers (4/5).

При N=11 (порог ≥6 голосов)

Оптимизация проблемного запроса (11/11).
Настройка vm.dirty_* (11/11).
Увеличение RAM (11/11).
Увеличение max_wal_size (9/11).
Анализ дисковой подсистемы с iostat (9/11).
Проверка физического разделения дисков (7/11).
Корректировка shared_buffers (7/11).
Настройка checkpoint_completion_target (6/11).
Настройка планировщика ввода-вывода (6/11).
Проверка random_page_cost и effective_io_concurrency (6/11).
Мониторинг переключений контекста (6/11).

Сравнение:

Базовый набор проблем (запрос, память, диск, WAL) подтверждается в обоих случаях. Однако при N=11 добавляются более тонкие, но статистически значимые аспекты (планировщик I/O, параметры стоимости, анализ контекстных переключений). Они не набрали бы нужного числа голосов при N=5, но при большем количестве прогонов становятся достоверными сигналами.

❌Возможные случайные ошибки

При N=5 (встретились в 1–2 отчетах)

Снижение shared_buffers до 2–2.5 ГБ – противоречит общему выводу о нехватке памяти.
Упоминание LWLock как скрытой проблемы – ничтожный вклад в ожидания.
Некорректная интерпретация autovacuum_work_mem – преждевременная рекомендация на фоне дефицита RAM.

При N=11 (встретились в 1–2 отчетах)

Увеличение work_mem до 128 МБ – риск перерасхода памяти.
Отключение synchronous_commit – риск потери данных без анализа требований.
Использование материализованных представлений – может усугубить нагрузку на запись.
Увеличение autovacuum_max_workers до 8 – усилит конкуренцию за диск.
Уменьшение max_wal_size для более частых контрольных точек – противоречит основной рекомендации.

Сравнение:

При N=11 список возможных ошибок шире, но все они отвергнуты большинством. Это демонстрирует, что с ростом числа отчетов ложные идеи не набирают критической массы и отсеиваются, тогда как при N=5 некоторые из них могли бы остаться незамеченными просто потому, что не попали в выборку. Важно, что ни одна из ошибок не пересекается с достоверными рекомендациями, что говорит о хорошей фильтрации.

Влияние количества отчетов на достоверность

1️⃣Укрепление доверия к основным выводам

Рекомендации, получившие 5/5 при N=5, при N=11 также имеют максимальную поддержку (11/11). Это подтверждает их фундаментальную важность.

2️⃣Выявление дополнительных значимых факторов

При увеличении выборки становятся заметны проблемы, которые ранее могли быть скрыты шумом или не достигали порога (например, настройка планировщика I/O). Это позволяет получить более полную картину узких мест.

3️⃣Снижение влияния случайных ошибок

Ложные или вредные советы, возникающие в единичных прогонах, не набирают большинства. При N=11 порог (6 голосов) жёстче, чем при N=5 (4 голоса), поэтому фильтрация шума эффективнее. Редкие аномалии остаются в разделе «возможные ошибки» и не попадают в финальные рекомендации.

4️⃣Ранжирование по частоте упоминаний

В N=11 чётко видна градация важности: от абсолютного консенсуса (11/11) до умеренного (6/11). Это помогает расставить приоритеты при внедрении изменений. В N=5 все достоверные рекомендации находятся в узком диапазоне 4–5 голосов, что не позволяет так же тонко дифференцировать их значимость.

Заключение

Увеличение числа отчетов при голосовании повышает надёжность итоговых рекомендаций за счёт:

многократного подтверждения ключевых проблем;
выявления менее очевидных, но систематических факторов;
надёжного отсеивания случайных и потенциально вредных советов.

Метод majority vote с большим N (например, 11) даёт более полную и точную картину, позволяя принимать обоснованные решения по оптимизации производительности. ➡️Рекомендуется использовать не менее 10–11 прогонов для достижения устойчивого консенсуса и минимизации ложноположительных срабатываний.

Послесловие

Проведённое исследование подтвердило эффективность применения метода «majority vote» для нивелирования недетерминированности выводов нейросетевой модели при анализе производительности СУБД PostgreSQL. Увеличение числа независимых прогонов с пяти до одиннадцати позволило не только многократно верифицировать ключевые проблемы (дефицит оперативной памяти, перегрузка дисковой подсистемы, неоптимальные параметры ядра и контрольных точек), но и выявить статистически значимые, хотя и менее очевидные факторы, такие как необходимость тонкой настройки планировщика ввода-вывода и параметров стоимостных оценок. Одновременно с этим расширение выборки обеспечило надёжное отсеивание ложноположительных и потенциально вредных рекомендаций, которые возникали в единичных отчётах, что подтверждает высокую фильтрующую способность метода при достаточном объёме голосующих экземпляров.

Полученные результаты непосредственно влияют на развитие методики анализа производительности, реализованной в комплексе pg_expecto. Обоснована целесообразность включения в стандартный сценарий использования комплекса требования о многократном (не менее 10–11 повторений) запуске модели с последующим автоматизированным голосованием. Это позволяет повысить достоверность итогового заключения, ввести объективное ранжирование рекомендаций по частоте упоминаний и минимизировать риск принятия ошибочных решений при оптимизации.

Показать полностью

VelStyling

Главное, чтобы работало ...⁠⁠

Серия Аналитика FM

1 день назад

Или зачем вообще нужен код-стайл в SQL?

Очень часто можно услышать:

Какая разница, как написан SQL код? Главное, чтобы запрос работал.

И формально это правда.
Если запрос возвращает правильные данные - задача вроде бы решена.

Об этом порассуждаем чуть ниже, а пока....

Подписывайся, если интересно как устроен мир аналитика!
В моем канале Аналитика FM выпуски про расчет Retention в разных бизнесах.
Канал я веду с нуля подписчиков, рассказываю про аналитику и разбираю различные кейсы на реальных примерах.

Особенность того, что необходимо "использовать" код-стайл при написании SQL запросов заключается в том, что SQL почти никогда не пишется один раз.

Его:

читают коллеги
правят через полгода
копируют в другие отчёты
используют как основу для новых запросов

И вот в этот момент становится понятно, зачем существует код-стайл.

Код-стайл - это договорённость о том, как писать код, чтобы его было легко читать, понимать и поддерживать.

Это не про красоту ради красоты.
Это про понятность.

В код-стайл обычно входят правила:

форматирования запроса
именования таблиц и алиасов
расположения JOIN
оформления условий
структуры сложных запросов

По сути это язык, на котором разработчики и аналитики читают код друг друга.

Почему "красивый SQL" важен

SQL отличается от многих языков тем, что он декларативный.

Ты описываешь не процесс, а результат.

И если структура запроса хаотичная, читать его становится очень тяжело.

Посмотрите на такой запрос:

SELECT a.id,b.name,sum(o.amount)
FROM users a JOIN orders o ON a.id=o.user_id
JOIN products b ON o.product_id=b.id
WHERE o.status='paid' AND o.created_at>'2025-01-01'
GROUP BY a.id,b.name;

Он работает.
Но мозг тратит энергию просто на то, чтобы разобрать структуру.

Теперь тот же запрос, но оформленный:

SELECT
u.id,
p.name,
SUM(o.amount) AS revenue
FROM users u
JOIN orders o
ON u.id = o.user_id
JOIN products p
ON o.product_id = p.id
WHERE o.status = 'paid'
AND o.created_at > '2025-01-01'
GROUP BY
u.id,
p.name;

Логика читается почти как текст.

Что обычно входит в хороший SQL-код-стайл

1️⃣ Ключевые слова - в одном регистре

Чаще всего пишут в верхнем:

SELECT
FROM
WHERE
GROUP BY

Это помогает быстро видеть структуру запроса.

2️⃣ Каждая логическая часть - с новой строки

Структура запроса должна читаться сверху вниз:

SELECT
FROM
JOIN
WHERE
GROUP BY
HAVING
ORDER BY

Это базовая навигация по SQL.

3️⃣ JOIN всегда выносят отдельно

Плохой вариант:

FROM users u, orders o
WHERE u.id = o.user_id

Хороший вариант:

FROM users u
JOIN orders o
ON u.id = o.user_id

Так видно:

какие таблицы участвуют
по каким ключам они связаны

4️⃣ Алиасы должны быть понятными

Плохой стиль:

SELECT a,b,c
FROM table1 t1
JOIN table2 t2

Хороший стиль:

users u
orders o
payments p

Код читается быстрее.

5️⃣ Сложные условия — разбивать

Вместо:

WHERE status='paid' AND created_at>'2025-01-01' AND country='DE'

Лучше:

WHERE status = 'paid'
AND created_at > '2025-01-01'
AND country = 'DE'

Так легче искать ошибки.

6️⃣ Вычисления лучше именовать

Плохой вариант:

SUM(amount)

Лучше:

SUM(amount) AS total_revenue

Через месяц вы не будете вспоминать, что именно считалось.

Есть ещё один важный момент

SQL-код почти всегда живет дольше, чем его автор помнит контекст.

Запрос, написанный сегодня:

могут открыть через год
могут использовать в другой задаче
могут передать другому аналитику

И если код написан хаотично, человек сначала будет разбираться в структуре, а уже потом в логике.

Хороший код-стайл - это уважение

Уважение:

к коллегам
к будущему себе
к системе, в которой работает код

Потому что чаще всего через несколько месяцев вы открываете свой старый SQL…
и думаете:

Кто это вообще написал?

И очень приятно, когда ответ:

Я. И я понимаю, что здесь происходит.

В моем канале Аналитика FM все про мышление аналитика, про инструменты аналитика.
Мы рассматриваем SQL и Python в применении к данным.
Этот канал я веду с нуля подписчиков. Если тебе тоже интересно погрузиться в мир аналитики, подписывайся!

Показать полностью 1

PG_EXPECTO v.7 : методология доказательной оптимизации высоконагруженных инсталляций PostgreSQL⁠⁠

[моё] Postgresql Тестирование Исследования Статья Длиннопост

4 дня назад

Взято с основного технического канала Postgres DBA (возможны правки в исходной статье).

Инфраструктурный коллапс: когда шина данных не выдерживает.

Анализ инцидента производительности высоконагруженной СУБД (CPU=200 RAM=1TB).

Введение

Представленный ниже материал представляет собой результаты углублённого анализа инцидента производительности, произошедшего в высоконагруженной продуктивной среде под управлением СУБД PostgreSQL. В ходе исследования рассматривается переход системы от состояния относительной стабильности к фазе комплексной деградации, затронувшей вычислительные ресурсы, подсистему ввода-вывода и механизмы синхронизации ядра СУБД. Сложность диагностики подобных состояний обусловлена необходимостью выявления первопричин, находящихся на пересечении аппаратного обеспечения, операционной системы и внутренних процессов базы данных, что требует применения системного подхода к сбору и интерпретации метрик.

В данной демонстрации наглядно показано применение инструментария pg_expecto, который позиционируется не только как средство нагрузочного тестирования, но и как эффективный механизм для постмортем-анализа и оптимизации «боевых» инсталляций. Использование pg_expecto позволило не ограничиться констатацией факта падения операционной скорости, а выявить критическую конкуренцию за буферный кэш (LWLock: BufferMapping), изменение паттернов работы расширений СУБД и скрытые проблемы дисковой подсистемы, маскируемые усредненными метриками. Публикация детализирует методологию сравнительного статистического и корреляционного анализа, демонстрируя, как сопоставление эталонного и аварийного периодов функционирования позволяет сформировать научно обоснованные рекомендации по оптимизации как конфигурации СУБД, так и поддерживающей её инфраструктуры.

Инцидент производительности СУБД

Дашборд Zabbix .

Дата и время инцидента: 11/03/2026 16:35

Производительность и ожидания СУБД в период 14:35 - 16:35

Операционная скорость

График изменения операционной скорости

Рис.1 - График изменения операционной скорости в отрезке [время инцидента; время инцидента - 2 часа]. Рост производительности сменился снижением.

Ожидания СУБД

График изменения ожиданий СУБД

Рис.2 - График изменения ожиданий СУБД в отрезке [время инцидента; время инцидента - 2 часа]. Рост ожиданий СУБД в течении часа до иницидента.

Производительность и ожидания СУБД в период инцидента производительности СУБД

Операционная скорость

График изменения операционной скорости в ходе инцидента

Рис.3 - Снижение операционной скорости в ходе инцидента. Коэффициент детерминации = 0.9

Ожидания СУБД

График изменения ожиданий СУБД в ходе инцидента

Рис.4 - Рост ожиданий СУБД в ходе инцидента. Коэффициент детерминации = 0.6

1. Сводный сравнительный отчет по производительности СУБД и инфраструктуры 2026-03-11 14:35 - 16:35

Общая информация

Объект анализа: СУБД PostgreSQL 15.13 (конфигурация из файла _1.settings.txt) и инфраструктура (vmstat).

Периоды сравнения:

Инцидент: 2026-03-11 15:35 — 16:35 (файл _2.postgresql_vmstat.txt). Период, квалифицированный как инцидент производительности.
Тест: 2026-03-11 14:35 — 15:35 (файл _2.1.test.postgresql_vmstat.txt). Период, взятый как тестовый отрезок для сравнения.

Аппаратная конфигурация:

CPU: 192 ядра (Intel Xeon Platinum 8280L), 4 NUMA-узла.
RAM: ~1008 GB.
Дисковая подсистема: Тома LVM на отдельных дисках для данных (/data, 56T), WAL (/wal, 1T), резервных копий (/backup, 2.9T) и логов (/log, 100G).

Итог по разделу "1. СРАВНИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД"

Ключевое изменение: Основная нагрузка сместилась с Extension в тестовом периоде на LWLock в инциденте. Хотя Extension все еще имеют высокий приоритет, их вклад в общее время ожиданий снизился, в то время как вклад LWLocks остался критически высоким.
В инциденте также появились и стали значимыми ожидания типов IO и Lock, которые в тестовом периоде не оказывали влияния. Это говорит о том, что система вошла в фазу комплексной деградации, затронувшей диск и блокировки транзакций.

Итог по разделу "2. СРАВНИТЕЛЬНЫЙ ТРЕНДОВЫЙ АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ vmstat"

Главный сигнал инцидента: Резкое падение cpu_id (простоя CPU) при одновременном падении скорости БД. CPU начинает активно работать, но не на выполнении полезной нагрузки, а на обслуживании простоев (скорее всего, связанных с LWLocks и конкуренцией).
В тестовом периоде CPU простаивал больше, очереди на выполнение (r) сокращались — система была сбалансирована.
Проблемы с диском (b, wa), наблюдавшиеся в тесте, в инциденте пошли на спад, что подтверждает смещение фокуса проблемы с IO на CPU и блокировки.

Итог по разделу "3. СРАВНИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД и МЕТРИК vmstat"

Основное различие в поведении Extension. В инциденте они стали значительно сильнее коррелировать с прерываниями (in), что может указывать на изменение их паттерна работы (например, увеличение частоты вызовов внешних API или обмен по сети).
Модель зависимости блокировок (Lock) от очереди на CPU (r) в инциденте стала слабой, хотя связь осталась. Это значит, что в формирование очереди на CPU теперь вносят вклад и другие факторы, прежде всего LWLocks, которые не отслеживаются напрямую vmstat.

Итог по разделу "4. СРАВНЕНИЕ ДИАГРАММ ПАРЕТО ПО WAIT_EVENT_TYPE и QUERYID"

Усложнение структуры отказов: В инциденте к проблемам с Extension и transactionid (блокировки строк) добавились серьезные проблемы с:

Конкуренцией за буферный кэш (LWLock: BufferMapping).
Физическими чтениями данных (IO: DataFileRead).
Синхронной записью WAL (IO: WALSync).
Блокировками версий строк (Lock: tuple).

Концентрация нагрузки: Основные проблемные запросы — прежние, но теперь они создают более сложный и разнообразный профиль ожиданий. Появление новых запросов в топе по IO и Lock говорит о том, что либо начали выполняться новые, тяжелые операции, либо изменился план выполнения старых запросов.

Проблемы СУБД

1. Критическая конкуренция за буферный кэш (LWLock: BufferMapping): Является основной причиной падения скорости в инциденте. Процессы проводят время в очередях за доступом к страницам в shared_buffers.

2. Деградация работы расширений (Extension): Расширения стали работать иначе, вызывая всплески прерываний и нагружая CPU, что усугубляет общую ситуацию. Главные виновники — запросы -503898190... и -428029360....

3. Рост физических чтений с диска (IO: DataFileRead): Буферный кэш перестал эффективно кэшировать данные, что привело к падению производительности и росту IO-ожиданий.

4. Появление синхронных проблем с WAL (IO: WALSync): Указывает на то, что запись в WAL начала тормозить транзакции, вероятно, из-за исчерпания пропускной способности диска с WAL или из-за конкурентной записи.

5. Расширение спектра блокировок (Lock: tuple): К проблемам с блокировками транзакций (transactionid) добавились блокировки отдельных версий строк (tuple), что говорит о высоком конкурентном доступе к одному и тому же набору данных.

Проблемы инфраструктуры

1. Неэффективная утилизация CPU: Процессорное время уходит не на полезную работу, а на оверхед (прерывания, ожидания). Это подтверждается падением cpu_id при падении скорости БД.

2. Рост прерываний: Увеличение корреляции Extension с in (прерывания) указывает на возросшую нагрузку на ядро ОС.

3. Косвенные признаки дисковой проблемы: Хотя прямые метрики wa и b улучшились, появление IO: DataFileRead и WALSync в топе ожиданий СУБД говорит о том, что дисковая система перестала справляться с пиковыми нагрузками, даже если это не видно на уровне усредненных метрик vmstat.

4. Острый дефицит свободной памяти: В обоих периодах свободной RAM менее 5% (ALARM). Система постоянно работает на грани нехватки оперативной памяти, что увеличивает вероятность вытеснения страниц и усиливает конкуренцию за буферный кэш. Это фоновый хронический фактор, который, вероятно, и спровоцировал инцидент при изменении паттерна нагрузки.

2. Рекомендации по итогам анализа инцидента производительности СУБД и инфраструктуры 2026-03-11 14:35 - 16:35

3. Сводный сравнительный отчет по подсистеме IO 2026-03-11 14:35 - 16:35.

Список дисковых устройств

Анализ проводился для следующих дисковых устройств, входящих в состав LVM для хранения данных СУБД и WAL:

vdg — физический диск, используемый для WAL (/wal) и раздела подкачки.
vdh, vdi, vdj, vdk — физические диски, объединенные в LVM-том /data для хранения данных СУБД.

Сравнительный анализ граничных значений по дисковым устройствам

В данном разделе сравниваются минимальные, медианные и максимальные значения ключевых метрик за тестовый период и период инцидента.

Устройство vdg (WAL):

Тест: Нагрузка на запись (w/s, wMB/s) стабильно низкая. Операции чтения практически отсутствуют. Утилизация устройства (device_util) минимальна (медиана ~5.9%).
Инцидент: Резкий рост нагрузки на запись. Медиана w/s выросла с ~373 до ~689, а wMB/s — с ~7.75 до ~16.0. Несмотря на рост, утилизация устройства остается низкой (медиана ~10.2%), что говорит о его высокой производительности и малом влиянии на общую картину.

Устройства данных vdh, vdi, vdj, vdk:

Тест: На всех четырех дисках наблюдается высокая и стабильная смешанная нагрузка. Медианные значения составляют:

r/s: ~12 200
w/s: ~500
Утилизация (device_util): ~87%
Глубина очереди (aqu-sz): ~2.0

Инцидент: Нагрузка на диски данных значительно возрастает.

r/s: медиана увеличивается до ~13 500.
w/s: медиана удваивается, достигая ~1 100.
wMB/s: медиана возрастает с ~4.8 до ~10.5.
Утилизация остается на критическом уровне (медиана ~90%).
Глубина очереди незначительно растет (медиана ~2.5).

Вывод: В период инцидента произошло существенное увеличение нагрузки на диски данных (vdh-vdk), особенно на операции записи (рост в 2 раза). Диск WAL (vdg) также испытал рост нагрузки на запись, но остался далек от насыщения.

Итог по разделу "СРАВНИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ КОРРЕЛЯЦИЯ VMSTAT и IOSTAT по дисковым устройствам"

В тестовом периоде наблюдалась высокая нагрузка на диски данных, но механизмы кэширования и буферизации работали иначе. В период инцидента характер взаимосвязей изменился: главным фактором стало прямое влияние загрузки диска на ожидание процессов (wa). Ключевым ограничивающим фактором стала пропускная способность дисков, о чем свидетельствует появление сильных корреляций с метриками MBps.

Проблемы инфраструктуры по итогам сравнительного анализа

1. Хроническая перегрузка дисков данных: Диски vdh, vdi, vdj, vdk постоянно работают с утилизацией более 80-90% и глубиной очереди более 2, что является критическим состоянием.

2. Усугубление проблемы в период инцидента: На фоне и без того высокой нагрузки произошел скачок операций записи (в 2 раза), что превратило пропускную способность дисков в главное узкое место.

3. Неэффективность буферизации: В момент пика нагрузки корреляция буферов с дисковым вводом-выводом пропала, что говорит о возможной нехватке буферов или неоптимальном характере нагрузки для их использования.

4. Рост зависимости от кэша: Увеличение корреляции кэша с дисковыми операциями в период инцидента указывает на то, что система пытается компенсировать недостаток дисковой производительности за счет памяти, но это не решает проблему полностью.

5. Отсутствие запаса пропускной способности: Система данных СУБД уперлась в физический предел скорости чтения/записи дисков.

Общий итог

Проведенный сравнительный анализ производительности СУБД PostgreSQL в периоды штатной работы и развития инцидента позволил выявить комплексный характер деградации системы. Установлено, что непосредственной причиной падения операционной скорости стала критическая конкуренция за буферный кэш (LWLock: BufferMapping), усугубленная изменением паттернов работы расширений, ростом физических чтений с диска и появлением синхронных ожиданий записи WAL. Хронический дефицит оперативной памяти и перегрузка дискового массива данных (утилизация более 90%) создали благоприятные условия для развития инцидента, переведя фокус нагрузки с подсистемы ввода-вывода на механизмы блокировок и процессорное время, что подтверждается изменением корреляционных связей между метриками СУБД и инфраструктуры.

Представленный пример практического применения инструментария pg_expecto наглядно демонстрирует его эффективность не только в задачах нагрузочного тестирования, но и при анализе производительности высоконагруженных продуктивных систем. Возможность проведения сравнительного статистического анализа, трендового моделирования и корреляции метрик СУБД с показателями операционной среды позволяет перейти от простой констатации факта падения скорости к выявлению первопричин деградации. Использование pg_expecto в данном исследовании обеспечило формирование научно обоснованных, верифицированных рекомендаций по оптимизации, что подтверждает его ценность как инструмента глубокой диагностики и постмортем-анализа для промышленных инсталляций PostgreSQL.

Показать полностью 5

Nerual.Dreming

Лига программистов

Next.js, PostgreSQL, OAuth, Т-Банк и ни одного разработчика. Как я построил SaaS MVP с помощью AI-агентов⁠⁠

7 дней назад

❯ Supabase, Vercel, Mantine, Runware, ALTCHA, Т-Банк эквайринг - разбираю каждый кирпичик и все грабли

Всем привет! Если вы следите за темой вайбкодинга, то наверняка замечали как быстро всё меняется. Ещё год назад я генерил одностраничные HTML-файлы, радовался жизни и был уверен что вайбкодинг - он вот про это. Странички, кнопочки, красивый фронтенд. А потом как-то незаметно оказалось что мне нужна база данных, авторизация, платёжная система и тесты. Это как зайти в IKEA за свечкой и выйти с кухней.

Но за последний год вайбкодинг изменился до неузнаваемости. Сейчас это не "сгенерь мне страничку" - это полноценная разработка с бэкендом, PostgreSQL, OAuth авторизацией, эквайрингом от Т-Банка, тестами и автодеплоем. Настоящий небоскрёб. И каждый кирпичик в нём выбран не случайно - самые беспроблемные технологии которые я нашёл за время своих скитаний по разным стекам и агентам. Чтобы строить легко и с удовольствием. Ну или хотя бы без желания выкинуть ноутбук в окно.

Меня зовут Илья, я основатель нейросети для генерации изображений ArtGeneration.me, техноблогер и нейро-евангелист. Я уже писал о своих приключениях с Devin за $500, обзоривал Codex и Jules - но то были эксперименты уровня шалаша. Одностраничные пет-проекты, игрушки. А сейчас я построил хоть и маленький, но коммерческий SaaS - сервис с AI-генерацией изображений, личными кабинетами, оплатой через Т-Банк и ММ моделями от Google, OpenAI, Black Forest Labs и других под капотом. И самое главное - я не написал ни одной строчки кода руками. Весь проект от первого коммита до деплоя - это работа с AI-агентами и данными.

В статье разберу весь стек по кирпичикам. Каждую технологию - почему именно она, что закрывает, какие подводные камни. Без рекламы и без прикрас - честно расскажу и про косяки, куда без них. И кстати, если вы разработчик который давно не выходил за пределы привычного стека - вам тоже может быть интересно. Я вот лично очень удивился когда узнал как изменились дела в веб-разработке за последнюю пару лет, пока я за ней не следил. Supabase, Server Actions, PKCE, self-hosted капчи - мир не стоял на месте.

❯ Как всё началось

Мне как блогеру, рассказывающему про нейросети, часто пишут - задать вопрос, спросить "а можно ли сделать вот так", или даже заказать что-то. И вот в очередной раз написали и показали скриншот сервиса, который делал примерку мебели в интерьере. Типа загружаешь фото комнаты, добавляешь фото дивана - и нейросеть рисует как он будет смотреться у тебя дома.

Подумал - а почему бы не попробовать? У меня был большой опыт работы с топовыми моделями генерации и я хорошо знал на что они способны. До этого я уже решал похожие кейсы для ArtGeneration - генерация и редактирование логотипов, промо-фотографии, всякие эксперименты с inpainting. Буквально за два вечера слепил рабочий прототип, показал клиенту - понравилось.

И вот тут начинается самое интересное. Параллельно с партнёром закусились на тему выставления счетов и оформления договоров. Знаете как это бывает - ты делаешь кому-то проект, потом надо выставить счёт, потом акт, потом ещё что-то подписать. С одной компанией это не выгодно и не удобно. И я подумал - проще автоматизировать, чем нагружать человека этой рутиной. Клиент и сам сказал что ему интереснее платить абонентку, но немного, чем за весь проект сразу и исходники. А SaaS с автоматической регистрацией, личным кабинетом, подписками и всеми делами - это уже совсем другая лига. Тут одним фронтедом не обойдёшься.

Кому интересно что за сервис получился - поищите у меня в телеграме ссылку, чтобы не сочли за рекламу.

Дальше разбираем стек. Каждый кирпичик - почему именно он и что закрывает.

❯ Фундамент - Supabase

Если наш SaaS - это небоскрёб, то Supabase - его фундамент. Для тех кто не в курсе - это опенсорсная альтернатива Firebase, только под капотом не проприетарная NoSQL база от гугла, а нормальный честный PostgreSQL. И вот что меня в нём поразило - один Supabase закрывает столько всего, что раньше пришлось бы собирать из пяти разных сервисов.

Смотрите что получаем из коробки:

База данных - полноценный PostgreSQL с Row Level Security. Это когда безопасность встроена прямо в базу на уровне строк - даже если в клиентском коде накосячишь, база физически не отдаст чужие данные. Пишешь SQL-политику типа "пользователь видит только свои записи" - и всё, можно спать спокойно
Авторизация - OTP по email, Magic Link, passwordless вход, 20+ OAuth провайдеров из коробки, MFA
Хранилище файлов - S3-совместимое, работает с любым S3-клиентом, CDN с 285+ точками по миру
Realtime подписки - через WebSocket, можно подписаться на изменения в базе и получать их мгновенно
Edge Functions - серверные функции если вдруг Server Actions не хватит

И всё это на бесплатном тарифе - 500 МБ база, 1 ГБ хранилище, 50 000 активных пользователей в месяц. Для MVP - за глаза.

Но вот что для меня было ключевым при выборе. Supabase - это классические большие технологии в облаке. PostgreSQL, S3, стандартный Auth. Это не проприетарные штуки типа KV Workers в Cloudflare (хотя это тоже крутая штука, я про неё как-нибудь отдельно напишу), которые хрен знает как потом перенести на понятный дедик за 10 тысяч в месяц. Тут всё стандартное, всё переносимое. Начинаешь на бесплатном тарифе, потом переходишь на платный, а когда экономика позволяет - просто разворачиваешь весь стек на своём сервере через Docker Compose.

Масштаб проекта кстати впечатляет - 5 миллионов разработчиков, больше 3,5 миллионов баз данных, а 40% стартапов из последнего батча Y Combinator используют Supabase. Оценка компании - 5 миллиардов долларов. Это не какой-то стартап-однодневка, это серьёзная платформа.

Конечно не правда будет сказать что всё было гладко. Были и косяки, и странные решения в документации, и моменты когда хотелось пошаманить с вилкой. Но оно рабортает. А для вайбкодера это главное.

Подводный камень: из РФ Supabase напрямую не работает. Решается дешёвой VPS-кой за 500 руб/мес для проксирования. Supabase - это как заселиться в отель "всё включено". База? Есть. Авторизация? Есть. Хранилище? Есть. Завтрак? Ну, завтрак сами. Только вот отель находится за границей, но для мвп это не проблема, а потом технологии можно просто развернуть на собственном дедике.

❯ Каркас - Next.js + TypeScript

Если Supabase - фундамент, то Next.js - стальной каркас всего здания. И знаете что меня больше всего удивило когда я начал в него погружаться? Граница между фронтендом и бэкендом просто исчезла.

Серьёзно. В Next.js 16 есть такая штука как Server Actions - это функции которые пишешь прямо рядом с компонентами, помечаешь "use server" и всё, у тебя бэкенд. Не надо поднимать отдельный сервер, не надо городить API на Express, не надо думать про CORS и прочие прелести. Ты думал что пишешь фронтенд - а оказалось что написал и бэкенд тоже. У меня в проекте 40+ Server Actions - они закрывают авторизацию, генерацию изображений, платежи, галерею, подписки, управление пользователями. По сути весь бэкенд живёт прямо в Next.js. "Подожди, а где мой сервер?" - "Ты на нём стоишь."

Плюс Server Components - они рендерятся только на сервере и не отправляют JavaScript клиенту. То есть страница грузится быстрее, а нейросеть делает меньше ошибок потому что не надо думать про гидрацию и прочие приколы клиентского рендеринга. App Router, Turbopack как дефолтный бандлер с 10-кратным ускорением Hot Reload - в общем Next.js в 2026 году это уже не "React с SSR", это полноценный фулл-стек фреймворк. 135 тысяч звёзд на гитхабе, 11 миллионов загрузок в неделю - не на пустом месте.

Отдельно скажу про TypeScript. Для вайбкодинга это не просто удобство - это спасение. Когда нейросеть пишет код, строгие типы работают как ограждения на горной дороге. Исследование 2025 года показало что 94% ошибок компиляции в AI-генерированном коде - это ошибки типов. То есть TypeScript ловит почти все косяки которые делает нейросеть, и агент тут же их фиксит. Без типов я бы утонул в багах. Кстати, TypeScript в октябре 2025 стал языком номер один на GitHub по числу контрибьюторов - 2,63 миллиона, впервые обогнал Python. Мир меняется.

Ну и Vercel закрывает вопрос деплоя целиком. Подключаешь GitHub-репозиторий один раз - и дальше при каждом git push сайт автоматически пересобирается и деплоится. Пушнул - через минуту всё обновилось. Каждый пулл реквест получает свой Preview URL для тестирования. Откатиться на любую предыдущую версию - один клик. Бесплатный тариф даёт 100 ГБ трафика и кучу всего, но он только для личного некоммерческого использования. Для MVP достаточно, а потом можно либо переехать на собственный сервер, либо просто купить про подписку.

❯ Интерьер - Mantine UI

Каркас стоит, фундамент залит - теперь надо обставить небоскрёб мебелью. Кнопки, формы, модалки, уведомления, графики, дропзоны для загрузки файлов - всё это UI-библиотека. И это все делать вручную мы не будем. И тут мне тоже повезло с первого раза.

Mantine - open-source React-библиотека, 130+ компонентов из коробки, 50+ готовых хуков, и - вот это ключевое - нейросети её знают идеально. Claude Code за весь проект ни разу не запутался в Mantine. Ни разу. Это вообще первый раз когда какая-то технология в стеке не вызвала ни одной истерики.

Почему так хорошо работает с AI? Во-первых, у Mantine на сайте лежит специальный файл llms-full.txt - вся документация в формате оптимизированном для LLM, полтора мегабайта. Подключаешь его как контекст к Claude или Cursor - и агент генерит код с первого раза. Во-вторых, у всех компонентов одинаковая структура пропсов - если ты понял как работает один инпут, ты понял все. Плюс полная TypeScript-типизация, 30 тысяч звёзд на гитхабе, 120+ готовых шаблонов страниц бесплатно на ui.mantine.dev.

А ещё к Mantine идёт Tabler Icons - почти 5 000 иконок. Для сравнения у Heroicons их 316, у Lucide около 1 600. Когда у тебя библиотека на пять тысяч иконок - AI-агент почти всегда находит нужную без подбора. Не надо гуглить, не надо искать, просто пишешь "иконка корзины" и он берёт правильную.

Знаете что общего между выбором UI-библиотеки и выбором жены? Если с первого раза повезло - не трогай, живи и радуйся. С Mantine повезло. Доки идеальные, компоненты не глючат, нейросеть всё понимает. Впервые за всю стройку ни одной проблемы. Поставил и работает. Беспроблемная технология - именно то что нужно вайбкодеру.

❯ Охрана - авторизация и безопасность

Вот мы и добрались до самого нервного этажа стройки. OAuth. Единственный раздел где я реально рвал на себе волосы.

Но давайте по порядку. Авторизация в проекте трёхуровневая.

Первый уровень - Passwordless OTP (One-time password). Самый простой и приятный. Пользователь вводит email, получает код, вводит код - всё, он внутри. Никаких паролей, никаких "забыл пароль", никаких баз с хешами которые потом утекают. Supabase Auth делает это из коробки, подключаешь свой SMTP (у меня Unisender Go - российский сервис, серверы в Москве и Питере, полное соответствие 152-ФЗ) и письма летят. Единственный нюанс - встроенный SMTP Supabase ограничен 3-4 письмами в час, так что внешний сервис обязателен. Но настройка - буквально вбить хост, порт, логин и пароль в настройках Supabase. Пять минут.

Второй уровень - OAuth через VK ID и Yandex ID. И вот тут начался ад.

Для тех кто не в курсе - OAuth 2.0 это протокол, который позволяет пользователю войти через сторонний сервис без передачи пароля. Нажимаешь "Войти через ВК" - переходишь на страницу ВК - даёшь разрешение - ВК возвращает одноразовый код - твой сервер меняет код на токен. Звучит просто да?

А теперь есть ещё PKCE (произносится "пикси"). Это расширение которое стало обязательным в OAuth 2.1. Проблема такая - SPA-приложение работает целиком в браузере и не может безопасно хранить секретный ключ. Решение - перед авторизацией приложение генерирует случайную строку, отправляет серверу её хеш, а при обмене кода на токен предъявляет оригинал. Даже если злоумышленник перехватит код авторизации - без оригинальной строки он бесполезен.

Это я вам сейчас красиво объяснил. А в процессе было так: две ночи читаешь доку про PKCE, redirect URI, "а почему токен протух", "а зачем мне code_verifier если и так всё рабо... а, не работает". Токены нельзя хранить в localStorage из-за XSS - только httpOnly cookies. Refresh-токены надо ротировать при каждом обновлении. Redirect URI должен совпадать символ в символ. И VK ID, и Yandex ID - оба с нюансами, оба с подводными камнями в документации. Самый нервный этаж стройки. Без преувеличений.

Третий уровень - ALTCHA. Self-hosted капча. Тут надо объяснить почему именно она. Раньше я бы без раздумий поставил Cloudflare Turnstile - бесплатно, работает, красиво. Но сейчас это не вариант по двум причинам. Первая - с 1 июля 2025 года в России вступили в силу поправки к 152-ФЗ, теперь нельзя собирать персональные данные россиян через иностранные сервисы без обработки на российских серверах. reCAPTCHA, Turnstile - они все собирают IP, данные браузера, поведение пользователя и отправляют на свои серверы за рубеж. Это прямое нарушение закона. Штрафы от 1 до 6 миллионов рублей, повторно - до 18 миллионов, плюс возможна блокировка сайта. Роскомнадзор уже массово рассылает предписания. Вторая - Cloudflare в России блокируется вдоль и поперёк, стабильной работы от него ждать не приходится.

Окей, а что с российскими решениями? Яндекс SmartCaptcha? Платная. И вот тут у меня принципиальная позиция - я не готов платить за то что всегда было бесплатным. Капча - она как бы и сейчас бесплатна, просто я не могу этим пользоваться. Значит нужно своё, self-hosted решение.

И тут нашёлся ALTCHA. Open-source, MIT-лицензия, данные вообще не покидают твой сервер. Вместо картинок со светофорами используется proof-of-work: сервер генерирует SHA-256 задачу, браузер пользователя перебирает числа примерно секунду, отправляет ответ с формой. Для человека незаметно, для бота тысячи отправок - вычислительно дорого. Весит 30 КБ против 300+ у reCAPTCHA, никаких cookies, никакого трекинга. Робот-охранник который спрашивает "вы человек?" - но без Google, без Яндекса и без абонентки.

Плюс ко всему - Content Security Policy, security headers, HSTS, X-Frame-Options. Всё что нужно для SaaS чтобы не было стыдно перед пользователями которые доверяют тебе свои данные.

❯ Энергетика - Runware и AI-модели

Вот мы и добрались до того что делает здание живым. Всё-таки это SaaS для генерации изображений - без AI-моделей тут как без электричества.

По-хорошему, для большинства задач хватило бы пары топовых моделей. GPT Image 1.5 от OpenAI и Gemini 3 Pro Image от Google - и закрывай 90% кейсов. Но раз уж есть агрегатор который даёт доступ к полутора десяткам моделей через один API - почему бы не добавить и остальные? Seedream 4.0 и 4.5 от ByteDance, Riverflow разных версий, Qwen-Image-Edit-Plus, Wan2.6 Image, FLUX.2 max - некоторые стоят сильно дешевле топовых (P-Image-Edit вообще ~70 копеек за генерацию против ~11 рублей у Gemini 3 Pro), а для каких-то конкретных задач могут сработать даже лучше. Плюс пользователям нравится выбор - кто-то хочет фотореализм, кто-то стилизацию, кому-то нужен быстрый черновик за копейки.

Runware - это агрегатор который решает всё одним ударом. Один SDK, один API - и через него доступ ко всем этим моделям. Представьте что вы пришли в ресторан, а там одно меню и один официант, но готовят одновременно полтора десятка шеф-поваров из разных стран. Вы просто тыкаете в блюдо - а кто его приготовил вам вообще не важно.

Для вайбкодера это идеально - одна интеграция вместо пятнадцати. Claude Code написал обёртку над Runware SDK один раз и дальше добавление новой модели - это буквально строчка в конфиге.

По ценам - диапазон от ~70 копеек до ~15 рублей за генерацию в зависимости от модели. Компания серьёзная - из Лондона, привлекли $66 миллионов инвестиций, среди клиентов Wix, Quora, Freepik. Не какой-то ноунейм.

Минус один, но существенный - оплата только зарубежной картой. В 2026 году в России это отдельный квест с посредниками которые берут комиссию за каждый чих. Неприятно, но терпимо.

❯ Касса - Т-Банк

Вот тут шалаш окончательно умирает. Потому что в шалаше кассы нет. А если в шалаше появилась касса - поздравляю, у вас теперь ларёк, лицензия и налоговая на горизонте. Добро пожаловать во взрослую жизнь, вайбкодер.

Stripe из России ушёл в 2022 году из-за санкций, так что выбор локальных решений не такой уж большой. Но мне повезло - с Т-Банк эквайрингом я уже хорошо знаком, через него мы принимаем платежи в ArtGeneration.me. А значит договор подписан, эквайринг настроен, всё работает. Выбор был без выбора - зачем искать что-то другое когда всё уже есть и проверено боем?

Работает через REST API - твой сервер вызывает метод Init, получает ссылку на платёжную форму, покупатель оплачивает, и Т-Банк отправляет вебхук на твой сервер с результатом. Для тех кто не в курсе - вебхук это когда не ты дёргаешь банк "ну чё там с оплатой?", а банк сам тебе стучится и говорит "оплачено, расслабься".

Каждый API-запрос подписывается SHA-256 токеном. Это как цифровая печать - банк берёт все параметры запроса, подмешивает секретный пароль и вычисляет хеш. Если хоть один символ поменять - хеш будет другим и банк поймёт что запрос подделан. Плюс идемпотентность через уникальный OrderId - если пользователь случайно нажал "Оплатить" дважды, система не спишет деньги повторно.

В моём проекте подписок как таковых нет - "подписка" это единоразовый платёж на определённый период. Плюс покупка кредитов для генерации. Но если кому-то нужны настоящие рекуррентные платежи - Т-Банк это поддерживает из коробки. Продаж пока нет, зато касса работает!

❯ Строительная инспекция - тесты

Тесты - это то что вайбкодеры обычно игнорируют. Ну серьёзно, кому охота писать тесты когда можно фичи пилить? А зря. Давайте сначала объясню что это вообще такое и зачем оно нужно. Тем более что писать тесты вручную, или глубоко понимать как они работают - не придется.

Представьте что вы построили дом. Тесты - это когда перед заселением приходит инспектор и проверяет: вода течёт? Течёт. Свет включается? Включается. Дверь открывается? Открывается. Если завтра вы решите переложить трубы на кухне - инспектор снова пройдёт по всему списку и скажет, не сломали ли вы случайно что-нибудь в ванной пока ковырялись на кухне.

В коде то же самое. Юнит-тесты проверяют отдельные функции - "если подать на вход вот это, на выходе должно быть вот то". Компонентные тесты проверяют что кнопки, формы и карточки рендерятся правильно. А сквозные тесты - это когда робот открывает настоящий браузер, тыкает по кнопкам как живой пользователь и проверяет что весь путь от регистрации до оплаты работает от начала до конца. Без тестов каждое изменение в коде - это русская рулетка. Особенно когда код пишет нейросеть которая при следующем промпте может зарефакторить половину проекта.

Стек тестирования: Vitest для юнит-тестов (практически догнал Jest по загрузкам, но работает с TypeScript из коробки без плясок с бубном), React Testing Library для компонентов, Playwright для сквозных тестов. Плюс Lefthook на git hooks - менеджер от Evil Martians, написан на Go, работает в разы быстрее чем Husky и не тянет за собой тысячу зависимостей.

Как это всё появилось в проекте? Два дневных лимита Claude Code. Но я не просто сказал "покрой тестами" - сначала попросил загуглить все лучшие практики по тестированию нашего стека, изучить что сейчас используют, выбрать технологии и обосновать выбор. И только потом покрывать - итерационно, шаг за шагом. Благо я заранее выдал ему GitHub CLI токен (не делайте так) и он сам смотрел логи GitHub Actions, чтобы разобраться почему его же тесты не проходят. Вот так побегав между деплой-логами на Vercel (где всё работало) и логами GitHub Actions (где тесты валились), в конечном итоге все тесты стали зелёными. Понятия не имею что они там реально тестируют.

Но знаете что - это и не важно. Главное что тесты - это страховка. Тесты в вайбкодинге - это когда ты нанял инспектора, инспектор сам изучил строительные нормы, сам написал себе чек-лист, сам проверил, сам подписал, и радостно доложил что всё ок. Ты ему веришь? Не особо. Но зелёные галочки в GitHub Actions всё равно греют душу.

❯ Прораб и его нейро-бригада

Небоскрёб - это конечно громко сказано. Давайте честно - это MVP. Но MVP качественное и масштабируемое. Именно такое каким должен быть минимально жизнеспособный продукт в наше время - не просто "работает и ладно", а продукт который можно полюбить и которым реально можно пользоваться. С нормальной авторизацией, с безопасными платежами, с тестами. Не стыдно показать людям.

И построил всё это один человек за неделю плотной работы. Один. Без команды разработчиков. Без фрилансеров. Даже анимированный тизер-ролик для сервиса сделал сам на стриме. И этот человек - напоминаю - не является программистом в классическом смысле, а скорее энтузиастом, предпочитающим генерировать код с помощью нейросетей, а не писать его с нуля. Это не панацея, но выход, чтобы продакту запустить прототип в одиночку, не напрягая команду разработки.

Я - прораб, который не умеет класть кирпичи. Зато умею орать на роботов, тыкать пальцем в чертёж и говорить "не так, переделай". Двадцать лет продакт-менеджмента наконец нашли своё истинное применение.

Claude Code - основной инструмент, 90% работы. Подписка Max за $100 в месяц (~7 700 рублей). Я не люблю терминалы и всё делаю через веб-версию - просто открываю браузер, подключаю гит и пишу промпты. Лайфхак (плохой, но рабочий): дать ему CLI-токены от Vercel и Supabase - и он сам загуглит как всё настроить и сам поменяет все настройки. Так делать нельзя по соображениям безопасности, но пока сайт не запущен и если не забудете сменить токены потом - экономит кучу времени. Бесит одно - лимиты. Постоянно кончаются. Работаешь, входишь в поток, всё летит - и бац, "вы исчерпали лимит, подождите". Приходится переключаться на другие дела, потом возвращаться, восстанавливать контекст. Раздражает дико. Да, когда-нибудь я перейду на GLM, но пока я в поиске локального агента такого же уровня как клод.

Devin AI - подключал точечно для работы с VPS. У Claude Code есть ограничения песочницы - он не хочет лезть на удалённые серверы. Ну вот так он устроен, принципиальный. А мне надо было настроить проксирование всего проекта через РФ VPS. У Devin таких ограничений нет - дал ему доступ к серверу и он спокойно подключился, посмотрел что есть и настроил nginx и автоматический выпуск SSL.

Итог по затратам: ~$100 Claude Code в месяц + немного Devin. Сравните с наймом фронтендера, бэкендера и девопса на такой стек.

❯ Лифт на последний этаж

Давайте подведём итог. Вот что мы имеем:

Supabase - фундамент. База данных, авторизация, хранилище файлов, рассылка писем. Бесплатный тариф.
Next.js + TypeScript - каркас. Фронтенд и бэкенд в одном флаконе.
Vercel - деплой. Пушнул в гит - сайт обновился.
Mantine - интерфейс. 130+ компонентов, нейросети его знают идеально.
Supabase Auth + OAuth + ALTCHA - охрана. OTP, VK ID, Yandex ID, self-hosted капча.
Runware - AI-модели. Один API, множество моделей.
Т-Банк - платежи. Вебхуки, SHA-256.
Vitest + Playwright + Lefthook - тесты.
Claude Code и немного Devin.

Вайбкодинг в 2026 - это уже не про одностраничные поделки. Один человек без навыков программирования может за неделю собрать как-то работающий, масштабируемый MVP с бэкендом, платёжкой, авторизацией, тестами и автодеплоем. И в базовом варианте почти весь стек бесплатный - Supabase free tier, Vercel free tier, GitHub. Платишь только за кодинг-агента и VPS-ку за 200 рублей. Конечно, если бы я последние 20 лет не занимался запуском проектов и продуктов, наверное ничего у меня бы не получилось, но, если понимание есть, препятствий теперь никаких.

Каждая технология в этом стеке выбрана за одно качество - она беспроблемная. Не самая модная, не самая хайповая - а та с которой меньше всего геморроя. Потому что когда ты прораб а не каменщик, тебе нужны кирпичи которые не крошатся в руках.

Год назад я строил скворечники и гордился. Сейчас - MVP которые не стыдно показать. Через год, наверное, буду строить что-то ещё больше. Или наконец признаю что я разработчик. Хотя нет, не признаю.

Ну а я продолжаю строить всякое с помощью нейросетей и рассказывать об этом. Подписывайтесь на меня в YouTube, Телеграм или на Бусти. И заглядывайте на стримы каждую пятницу в 19:00. Всех обнял и удачных генераций.

Показать полностью 20

[моё] Нейронные сети Искусственный интеллект Typescript Веб-разработка Программирование Saas Стартап Claude Генерация изображений Т-Банк Postgresql Создание сайта IT Длиннопост

[моё] Postgresql Тестирование Исследования Длиннопост

PG_EXPECTO в деле: Сравнение конфигураций PostgreSQL от Тантор и PGPRO⁠⁠

9 дней назад

Взято с основного технического канала Postgres DBA (возможны правки в исходной статье).

Два конфигуратора. Один бенчмарк. 12% разницы.

В настоящем исследовании проведен сравнительный анализ эффективности двух подходов к конфигурированию СУБД PostgreSQL 17 — рекомендаций Тантор Лабс и утилиты pgpro_tune. В качестве инструментария использовался диагностический комплекс pg_expecto, позволяющий выполнить статистический анализ производительности и ожиданий СУБД. Эксперимент проводился на идентичной аппаратной конфигурации (8 vCPU, 8 GB RAM) с фиксированной OLTP-нагрузкой. В ходе работы был выполнен анализ операционной скорости, временных рядов, корреляционных связей между метриками СУБД и инфраструктуры, а также распределения ожиданий по типам и запросам. Полученные данные свидетельствуют о том, что конфигурация pgpro_tune обеспечила прирост медианной производительности на 12% при сопоставимом уровне ожиданий. Вместе с тем, в обоих случаях зафиксировано критическое узкое место дисковой подсистемы, выразившееся в доминировании IO-ожиданий (99,9%), при этом 85% всех ожиданий пришлось на единственный запрос. В статье изложены результаты сравнительного анализа и обозначены направления дальнейшей оптимизации.

Входные данные для конфигураторов

CPU = 8
RAM = 8GB
Тип нагрузки = OLTP
Платформа = Linux
Версия PostgreSQL = 17

Сводный сравнительный отчет по производительности СУБД и инфраструктуры

Сравнительный график изменения операционной скорости в ходе нагрузочного тестирования.

Эксперимент-1 (Конфигуратор Тантор Лабс)

Дата и время сбора: 2026-03-05 18:09 – 20:31
Версия PostgreSQL: 17.5
Аппаратное обеспечение: 8 vCPU, 7.5 GB RAM, диски LVM (data – 100GB, wal – 50GB, log – 30GB)

Эксперимент-2 (Конфигуратор PGPRO_TUNE)

Дата и время сбора: 2026-03-07 10:24 – 12:46
Версия PostgreSQL: 17.5
Аппаратное обеспечение: идентично Эксперименту-1

Общая информация

Конфигурационные параметры СУБД и VM

Основные различия в настройках PostgreSQL:

shared_buffers:
Тантор: 1779 MB
PGPRO: 1919 MB
effective_cache_size:
Тантор: 5081 MB
PGPRO: 3838 MB
work_mem:
Тантор: 35 MB
PGPRO: 32 MB
maintenance_work_mem:
Тантор: 196 MB
PGPRO: 479 MB
autovacuum_work_mem:
Тантор: 189 MB
PGPRO: 239 MB
max_connections:
Тантор: 91
PGPRO: 239
max_wal_size / min_wal_size:
Тантор: 2021 MB / 1010 MB
PGPRO: 4 GB / 2 GB
bgwriter:
Тантор: delay = 54 ms, maxpages = 515, multiplier = 7.0
PGPRO: delay = 20 ms, maxpages = 4000, multiplier = 4.0
effective_io_concurrency:
Тантор: 128
PGPRO: 200 (комментарий для NVMe)
random_page_cost: оба 1.1 (NVMe SSD)
jit:
Тантор: включён
PGPRO: выключен
checkpoint_timeout:
Тантор: 15 min
PGPRO: не указан (вероятно, по умолчанию 5 min)

Общий анализ операционной скорости и ожиданий СУБД

Сравнительный анализ граничных значений операционной скорости (SPEED) и ожиданий СУБД (WAITINGS)

Операционная скорость (SPEED):

Минимальное значение:
Тантор: 375 955
PGPRO: 365 651
Медианное значение:
Тантор: 383 994
PGPRO: 431 390 (на ~12% выше)
Максимальное значение:
Тантор: 683 866
PGPRO: 700 651

Ожидания СУБД (WAITINGS):

Минимальное значение:
Тантор: 48 536
PGPRO: 49 679
Медианное значение:
Тантор: 78 011
PGPRO: 79 032
Максимальное значение:
Тантор: 226 349
PGPRO: 240 293

Медианная скорость в эксперименте PGPRO выше на ~12% при незначительно более высоких медианных ожиданиях.
Разброс значений (max–min) в обоих экспериментах сопоставим.

Сравнительный анализ трендов операционной скорости (SPEED) и ожиданий СУБД (WAITINGS)

Тренд SPEED (по времени):
Тантор: R² = 0.77 (хорошее качество), угол наклона +41.33 – модель достоверно описывает рост скорости.
PGPRO: R² = 0.86 (очень высокое), угол наклона +42.89 – более сильная и прогностичная модель.
Тренд WAITINGS (по времени):
Тантор: R² = 0.87, угол +43.01
PGPRO: R² = 0.87, угол +43.07 – практически идентичные показатели, рост ожиданий устойчив.
Регрессия SPEED по WAITINGS:
Тантор: R² = 0.97, угол +44.56 – исключительно сильная связь.
PGPRO: R² = 0.99, угол +44.83 – практически функциональная зависимость.

Вывод: в обоих экспериментах операционная скорость жёстко привязана к объёму ожиданий (вероятно, из-за доминирования IO-ожиданий). PGPRO демонстрирует более высокую детерминированность модели.

1. СРАВНИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД

Интегральный приоритет типов ожиданий:
В обоих экспериментах единственный значимый тип – IO с приоритетом 0.6271.
Остальные типы (IPC, Lock, LWLock, Timeout) имеют статистически значимые корреляции, но их взвешенная корреляция (ВКО) < 0.01, поэтому они игнорируются.
BufferPin и Extension – корреляция отсутствует или отрицательная.
Качество регрессионной модели для IO:
Оба эксперимента: R² = 1.00, угол +45.00 – идеальная линейная зависимость общих ожиданий от IO-ожиданий.

Итог по разделу:

Основной источник ожиданий – операции ввода-вывода. Нагрузка полностью IO-ориентирована.

2. СРАВНИТЕЛЬНЫЙ ТРЕНДОВЫЙ АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ vmstat

Ключевые метрики и их тренды:

procs -> r (очередь на выполнение):
Тантор: R² = 0.74 (хорошая модель), угол +40.74 – негативный тренд, высокая скорость изменения (коэф. 30.21). Требует анализа CPU/планировщика.
PGPRO: R² = 0.18 (непригодная модель), изменения статистически незначимы – игнорируется.
procs -> b (процессы в uninterruptible sleep, ожидание IO):
Тантор: R² = 0.87, угол +42.95 – очень сильный рост, коэф. 37.23. Сигнал к исследованию дисковой подсистемы.
PGPRO: R² = 0.87, угол +43.00 – аналогично, коэф. 37.39.
cpu -> wa (процент простоя CPU в ожидании IO):
Тантор: R² = 0.03 – модель бесполезна, тренд отсутствует.
PGPRO: R² = 0.24 (слабая модель), угол +26.12 – слабый, но положительный тренд. Рекомендовано фоновое наблюдение.
cpu -> id (процент полного простоя CPU):
Тантор: R² = 0.91, угол -43.66 – сильное падение, коэф. 39.74.
PGPRO: R² = 0.96, угол -44.41 – ещё более выраженное падение, коэф. 42.60.
Оба эксперимента требуют выяснения причин снижения полезной работы CPU.

Итог по разделу:

В эксперименте Тантор дополнительно наблюдается рост очереди процессов на выполнение (procs r), что может указывать на возросшую конкуренцию за CPU или неэффективность планировщика.
Главная общая проблема – стремительный рост числа процессов, заблокированных в IO (procs b), и падение idle CPU, что свидетельствует о нарастающем IO-узком месте.

3. СРАВНИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД И МЕТРИК vmstat

Относительные показатели (алармы):

us+sy > 80%: 0% в обоих – нагрузка не перегружает CPU вычислениями.
r превышение числа ядер CPU: 0% – очередь на выполнение не превышает 8.
sy > 30%: 0% – доля системного времени в норме.
free RAM < 5%: 100% в обоих экспериментах – свободной оперативной памяти постоянно менее 5%. Потенциальный риск нехватки памяти, хотя свопинг отсутствует.
swap in/out: 0% – подкачка не используется.
wa > 10%: 100% – CPU постоянно простаивает в ожидании IO более 10% времени.
b превышение числа ядер CPU: 100% – количество процессов в состоянии uninterruptible sleep постоянно превышает 8 (ядер CPU).

Корреляционный анализ (ключевые отличия):

IO и bi (блоки чтения):
Тантор: corr = 0.55 (высокая), R² = 0.31 (слабая модель).
PGPRO: corr = 0.67 (высокая), R² = 0.45 (удовлетворительная). Связь IO с чтениями в PGPRO выражена сильнее и лучше объясняется моделью.
IO и bo (блоки записи):
Оба: corr ~0.85-0.86, R² ~0.72-0.74 – сильная связь, хорошее качество.
Shared buffers hit ratio:
Тантор: мин 96.09%, медиана 96.64%, макс 98.36%
PGPRO: мин 96.29%, медиана 96.87%, макс 98.56% – у PGPRO hit ratio немного выше.
Корреляция скорости с прочитанными блоками:
Тантор: corr = 0.58 (высокая), R² = 0.34 (слабая) – warning: производительности IO недостаточно.
PGPRO: связь отсутствует (отрицательная или незначимая).
Корреляция hit ratio с прочитанными блоками:
Тантор: отсутствует.
PGPRO: corr = -0.73 (очень высокая отрицательная), R² = 0.53 – чем больше чтений с диска, тем ниже hit ratio (логичная обратная связь). В PGPRO кэширование работает предсказуемо.
Корреляция записанных блоков с bo:
Тантор: corr = 0.88, R² = 0.77 (хорошая)
PGPRO: corr = 0.90, R² = 0.80 (очень высокая) – сильная связь, указывает на необходимость настройки контрольных точек и bgwriter.
Корреляция dirty pages с b (процессы в uninterruptible sleep):
Оба: corr ~0.99, R² ~0.98-0.99 – ALARM: размер грязных страниц практически линейно связан с блокировкой процессов в IO. Подтверждение системного IO bottleneck.
Корреляция dirty pages с bo:
Оба: corr ~0.86-0.89, R² ~0.74-0.79 – ALARM: механизм обратной записи не успевает за генерацией dirty pages.
Корреляция dirty pages с sy (системное время):
Оба: corr ~0.94-0.98, R² ~0.88-0.95 – ALARM: высокие накладные расходы ядра на управление памятью и IO.

Индекс приоритета корреляции (CPI):
В обоих экспериментах лидируют одни и те же пары: cs-in, cs-us, dirty-b, cs-sy, dirty-sy, dirty-bo. Значения CPI очень близки.

Итог по разделу:

PGPRO демонстрирует более предсказуемую работу кэша (отрицательная корреляция hit с чтениями) и чуть лучший hit ratio.
В Тантор операционная скорость заметно коррелирует с объёмом чтения с диска, что говорит о возможной нехватке кэширования или менее эффективном использовании буферов.
Оба эксперимента страдают от тяжёлого IO-узкого места, подтверждённого множеством корреляций с dirty pages, b, wa и высокими накладными расходами ядра.

4. СРАВНЕНИЕ ДИАГРАММ ПАРЕТО ПО WAIT_EVENT_TYPE И QUERYID

Распределение по типам ожиданий:
Тантор: IO – 99.84% (DataFileRead)
PGPRO: IO – 99.94% (DataFileRead)
Практически все ожидания приходятся на чтение файлов данных.
Топ запрос по ожиданиям IO:
Тантор: queryid 8275902800498673318 (select scenario1()), calls = 16 816 525, waitings = 12 059 950 (85.04% от всех IO-ожиданий).
PGPRO: queryid -1679588366130117659 (select scenario1()), calls = 16 583 534, waitings = 12 249 974 (85.21% от всех IO-ожиданий).
В обоих случаях основной вклад вносит один и тот же запрос – вызов функции scenario1().

Список SQL-выражений идентичен:
select scenario1(), select scenario2(), select scenario3(). В Тантор дополнительно присутствует служебный запрос к pg_class.

Итог по разделу:

Нагрузка полностью определяется выполнением трёх сценариев, причём сценарий 1 генерирует более 85% всех IO-ожиданий. Целевая оптимизация должна быть направлена на этот запрос.

Детальный анализ – граничные значения и корреляции

Ожидания СУБД

Доминирует тип IO, событие DataFileRead.
Медианные ожидания: Тантор – 78 011, PGPRO – 79 032 (практически одинаково).
Максимальные ожидания: Тантор – 226 349, PGPRO – 240 293 (немного выше у PGPRO, но и скорость выше).

Память и буферный кэш

Shared buffers hit ratio: у PGPRO выше на ~0.2–0.3% (медиана 96.87% против 96.64%).
Свободная RAM: в обоих экспериментах постоянно <5% – тревожный сигнал, но свопинг отсутствует. Возможно, это норма для выделенного сервера БД, где почти вся память занята кэшем.
Корреляция hit с чтениями: в PGPRO сильная отрицательная (логично), в Тантор – отсутствует. Это может указывать на менее эффективное использование кэша в Тантор или на особенности сбора статистики.

Дисковая подсистема (I/O)

Корреляция IO с bi/bo: сильная в обоих случаях, особенно с bo (запись). PGPRO немного лидирует по силе связи.
Корреляция dirty pages с b и bo: очень сильная в обоих – явный признак того, что система не справляется с записью грязных страниц, процессы блокируются.
wa > 10% в 100% времени – подтверждение постоянной высокой нагрузки на диск.

CPU и системные вызовы

Корреляции cs с in, us, sy: очень высокие (R² > 0.95) в обоих экспериментах. Это нормально для многозадачной системы.
В Тантор выше корреляция cs с sy (0.977 против 0.943), что может говорить о большем времени, тратимом ядром на переключение контекста.
Падение idle CPU – закономерное следствие роста ожиданий.

Блокировки и ожидания LWLock

Незначимы в обоих экспериментах (ВКО < 0.01). Блокировки не являются проблемой.

Анализ запросов (queryid)

Главный потребитель – select scenario1() (около 85% всех IO-ожиданий). Именно его необходимо оптимизировать (индексы, переписывание, увеличение кэша).

Ключевые проблемы

Проблемы СУБД

Критическая зависимость от IO: 99.9% ожиданий – DataFileRead. Скорость работы прямо пропорциональна объёму IO.
Неэффективный запрос: scenario1() генерирует 85% всех ожиданий. Требуется анализ плана выполнения и оптимизация.
Hit ratio высок, но не идеален (96–98%). Возможно, часть данных не помещается в shared_buffers.
В Тантор дополнительно: операционная скорость коррелирует с чтениями с диска, что может означать недостаточный размер кэша или неоптимальное использование индексов.

Проблемы инфраструктуры

Системный IO bottleneck:
Процессы массово блокируются в состоянии uninterruptible sleep (b >> ядер CPU в 100% времени).
Высокий процент wa (всегда >10%).
Размер dirty pages сильно коррелирует с b и bo – фоновые записи не успевают, процессы вынуждены ждать.
Высокие накладные расходы ядра: сильная корреляция dirty pages с sy (системное время) указывает на затраты CPU на управление памятью/IO.
Малый объём свободной RAM (<5%) – хотя свопинг не используется, это может приводить к вытеснению полезных страниц и дополнительным чтениям с диска.

Итоговый анализ влияния выбора конфигуратора на базовую производительность СУБД и инфраструктуры

Сходства:

Оба эксперимента проведены на идентичном оборудовании с одинаковой тестовой нагрузкой (три сценария).
Основной источник проблем – IO-подсистема, не справляющаяся с объёмом записи и чтения.
Интегральный приоритет ожиданий (тип IO) и распределение по запросам практически идентичны.

Различия в производительности и эффективности:

Медианная скорость: PGPRO показал на 12% более высокую операционную скорость (431 390 против 383 994) при практически тех же медианных ожиданиях.
Качество кэширования:
Hit ratio в PGPRO чуть выше.
В PGPRO присутствует логичная отрицательная корреляция hit ratio с объёмом чтений с диска, что говорит о предсказуемой работе кэша. В Тантор эта связь отсутствует, что может указывать на менее эффективное использование shared_buffers или на другие факторы (например, включённый JIT).
Регрессионные модели: в PGPRO модели SPEED по времени и SPEED по WAITINGS имеют более высокие R², т.е. поведение более детерминировано.
Тренды vmstat: в Тантор обнаружен значимый рост очереди процессов на выполнение (procs r), что может быть следствием дополнительных накладных расходов (например, от JIT или менее агрессивного bgwriter). В PGPRO этот показатель стабилен.
Настройки bgwriter и контрольных точек: в PGPRO более агрессивный фоновый писатель (меньше delay, больше maxpages) и больший max_wal_size, что способствует более плавной записи и, возможно, снижает пиковые нагрузки. Это подтверждается чуть более сильной корреляцией записанных блоков с bo и лучшей моделью.

Вывод:

Конфигуратор PGPRO_TUNE обеспечил более высокую медианную производительность и лучшее использование буферного кэша при той же нагрузке. Его настройки (увеличенный shared_buffers, более агрессивный bgwriter, отключение JIT, больший max_wal_size) оказались эффективнее для данного сценария.

Тем не менее, фундаментальная проблема – недостаточная производительность дисковой подсистемы – остаётся нерешённой и требует либо модернизации hardware (более быстрые диски, NVMe), либо глубокой оптимизации запроса scenario1() для снижения объёма чтения с диска. Рекомендуется в первую очередь исследовать план выполнения проблемного запроса и рассмотреть возможность увеличения индексов или партиционирования.

Послесловие

Проведенное исследование подтвердило, что выбор конфигуратора СУБД оказывает статистически значимое влияние на операционную скорость PostgreSQL 17 в условиях OLTP-нагрузки: применение pgpro_tune обеспечило прирост медианной производительности на 12% по сравнению с рекомендациями Тантор Лабс. При этом в обоих экспериментах зафиксировано критическое узкое место дисковой подсистемы, о чем свидетельствуют доминирование IO-ожиданий (99,9%), устойчивый рост числа процессов в состоянии uninterruptible sleep и высокие корреляции между объемом «грязных» страниц и блокировками процессов. Выявлено, что 85% всех ожиданий приходится на единственный запрос (scenario1), что делает его оптимизацию первоочередной задачей. Полученные результаты могут служить основой для выработки рекомендаций по настройке PostgreSQL и модернизации инфраструктуры с целью устранения выявленных ограничений.

Показать полностью 2

Проблема использования конфигураторов типа «Тантор Лабс» и pgpro_tune⁠⁠

Контент нейросетей Postgresql Тестирование Длиннопост

11 дней назад

Нижеследующий материал полностью подготовлен нейросетью.

Проблема использования конфигураторов типа «Тантор Лабс» и pgpro_tune

В современном мире администрирования баз данных всё большую популярность приобретают автоматические конфигураторы — инструменты, которые обещают сгенерировать оптимальный набор параметров СУБД на основе минимальных входных данных: объёма оперативной памяти, количества ядер процессора, предполагаемого типа нагрузки и версии PostgreSQL. «Тантор Лабс», pgpro_tune, PgTune и подобные решения стали незаменимыми помощниками для быстрого старта. Однако, как показывает практика, доверять таким конфигураторам безоговорочно нельзя. Они задают лишь отправную точку, но не гарантируют эффективной работы под реальной нагрузкой. Недавнее сравнительное тестирование, проведённое с участием инструмента pg_expecto и нейросети DeepSeek, наглядно продемонстрировало ограничения подобных генераторов и риски, связанные с их использованием.

В эксперименте участвовала система с 8 ядрами CPU и 8 ГБ RAM под управлением PostgreSQL 17. Исходная конфигурация была подготовлена конфигуратором «Тантор Лабс» и содержала, на первый взгляд, разумные значения: shared_buffers = 1779 МБ, max_wal_size = 2021 МБ, checkpoint_timeout = 15 мин и ряд других параметров. Однако при нагрузочном тестировании по сценарию OLTP система сразу же попала в состояние «серьёзного кризиса производительности». Наблюдалась постоянная нехватка оперативной памяти, более 10% времени процессор простаивал в ожидании ввода-вывода (iowait), а количество процессов в состоянии uninterruptible sleep (b) превышало число ядер CPU. Медианная скорость выполнения транзакций составляла около 384 тысяч операций в минуту, а ожидания ввода-вывода достигали 226 тысяч. Основным источником проблем оказался один и тот же запрос scenario1, генерировавший 85% всех событий ожидания DataFileRead.

Почему же конфигуратор, зная объём памяти и тип нагрузки, не смог предотвратить этот кризис? Ответ кроется в самой природе таких инструментов. Они оперируют усреднёнными шаблонами и эвристиками, основанными на общих рекомендациях из документации и типовых профилях нагрузки. Например, shared_buffers обычно устанавливают в 20–25% от RAM, но конкретное значение зависит от множества факторов: характера запросов, размера рабочих наборов данных, активности записи. В данном случае 1779 МБ оказалось недостаточно для кэширования часто используемых данных, что и привело к постоянным обращениям к диску. Конфигуратор не мог предвидеть, что конкретный запрос будет потреблять огромное количество операций ввода-вывода, и что даже такой объём shared_buffers не спасёт от дефицита памяти. Кроме того, выбранные параметры контрольных точек (checkpoint_timeout = 15 мин, max_wal_size = 2 ГБ) оказались слишком агрессивными для реальной интенсивности записи, вызывая частые сбросы грязных страниц и пиковые нагрузки на диск.

После анализа ситуации с помощью pg_expecto и DeepSeek были предложены изменения, которые увеличили медианную скорость на 40,6%: shared_buffers подняли до 3 ГБ, max_wal_size — до 5 ГБ, checkpoint_timeout — до 30 минут, а также скорректировали параметры bgwriter и vm.dirty_*. Эти изменения сгладили пики записи, улучшили попадание в кэш (hit ratio вырос с 96,64% до 96,95%), но принципиально не решили проблему: дефицит памяти остался (доступная RAM упала с 4,9 до 3,5 ГБ), iowait и очередь заблокированных процессов сохранились на прежнем уровне, а запрос-виновник по-прежнему генерировал 85% всех ожиданий. То есть даже оптимизированная конфигурация не смогла устранить корневую причину, которая лежит за пределами настроек СУБД — в логике конкретного запроса и аппаратных ограничениях.

Этот случай высвечивает фундаментальные ограничения конфигураторов:

Отсутствие учёта реальной рабочей нагрузки. Конфигуратор не знает, какие запросы будут выполняться, как они используют индексы, какие объёмы данных сканируются. Он оперирует обобщёнными типами (OLTP, OLAP), но внутри одного типа может быть огромное разнообразие паттернов доступа.
Статичность рекомендаций. Параметры подбираются один раз и навсегда, без учёта динамики изменения нагрузки во времени. В реальности же нагрузка может варьироваться, и то, что хорошо для пиковых значений, может быть избыточно для фоновых процессов.
Игнорирование взаимодействия с операционной системой. Конфигураторы редко учитывают настройки ядра Linux (vm.dirty_ratio, dirty_background_ratio и т.п.), хотя они критически влияют на производительность ввода-вывода. В эксперименте именно корректировка этих параметров дала часть прироста.
Невозможность выявить проблемные запросы. Ни один конфигуратор не проанализирует, что конкретный запрос scenario1 потребляет 85% ресурсов. Это задача мониторинга и профилирования, которые должны проводиться отдельно.
Отсутствие итеративности. Конфигуратор выдаёт готовый файл, но не предлагает цикл «измерение-настройка-измерение», который необходим для тонкой подстройки под конкретное железо и нагрузку.

Аналогичные претензии можно предъявить и к pgpro_tune, популярному инструменту от Postgres Professional. Он также генерирует конфигурацию на основе анкеты, но не учитывает многие тонкости: например, не анализирует статистику по индексам, не видит реальные очереди ожидания, не предлагает вариантов для разных подсистем хранения (HDD vs SSD). В результате пользователь получает «среднюю температуру по больнице», которая может быть далека от идеала.

Вывод из проведённого эксперимента очевиден: конфигураторы полезны как стартовая площадка, но полагаться только на них при построении высоконагруженных систем опасно. Они не заменяют экспертного анализа, нагрузочного тестирования и постоянного мониторинга. Необходимо использовать инструменты, подобные pg_expecto, которые позволяют проводить корреляционный анализ метрик СУБД и ОС, выявлять узкие места, итеративно менять параметры и оценивать эффект. Только такой подход способен адаптировать систему к реальной нагрузке и, как в этом примере, дать прирост в 40% без замены оборудования. В ближайших экспериментах планируется сравнить эффективность различных конфигураторов, включая pgpro_tune, чтобы на практике показать, насколько их рекомендации соответствуют реальности и какие дополнительные усилия требуются для достижения максимальной производительности.

Показать полностью 1

Сравнительный анализ оптимизации PostgreSQL 17: от конфигуратора «Тантор Лабс» до калибровки с помощью PG_EXPECTO и DeepSeek⁠⁠