SaaS (Software as a Service) (Программное обеспечение как услуга)
это модель предоставления приложения пользователям через интернет, также называющаяся облачный сервис. Большинство SaaS приложений запускаются напрямик через браузер и не требуют установки со стороны пользователя.
PaaS (Platform as a Service) (Платформа как услуга)
предоставляет облачные компоненты программному обеспечению, в основном используется для приложений. PaaS предоставляет платформу для разработчиков, на которую они могут опираться при создании кастомных приложений. Серверы, хранилище и сети могут управляться сторонним поставщиком, пока разработчики могут продолжать управлять приложениями.
IaaS (Infrastructure as a Service) (Инфраструктура как сервис)
это полностью самообслуживаемый сервис для доступа и мониторинга компьютеров, сетей, хранилища и других сервисов, позволяющий бизнесам покупать необходимые ресурсы, когда они им нужны вместо немедленной покупки оборудования.
Kubernates (K8s)
это платформа с открытым исходным кодом, используемая для запуска и управления контейнерными приложениями и сервисами в кластерах физических или виртуальных машин в локальных, общедоступных, частных и гибридных облаках. K8s автоматизируют сложные задачи в течение жизненного цикла контейнера: подготовка, развертывание, сеть, масштабирование, балансировка нагрузки и многое другое, что упрощает оркестровку в облачных средах.
IDS (Intrusion Detection System) (Система обнаружения вторжений)
это система, разработанная для обнаружения, идентификации и устранения подозрительной и вредоносной активности через интернет трафик.
Гибридный мониторинг облака
мониторинг, отслеживающий показатели приложений и веб-сервисов, рабочий процесс и производительность в частных и общедоступных облаках, а также в локальном ИТ-пространстве.
Мониторинг инфраструктуры
это процесс сбора и анализа данных из ИТ инфраструктуры, систем и процессов, чтобы впоследствии использовать собранные данные для улучшения бизнес результатов и повышения ценности всей организации.
AIOPs (Artificial Intelligence for IT operations) (Искусственный интеллект для ИТ операций)
ИТ практика, использующая машинное обучение (ML), big data и искусственный интеллект для автоматизации ИТ процессов, включая корреляцию ивентов, отслеживание аномалий и определение причин.
CE (Chaos engineering) (хаос-инжиниринг, умышленное разрушение)
подход к тестированию системы мониторинга с помощью намеренной и контролируемой симуляции инцидента. Таким образом выявляются слабости системы, которые могут быть доработаны и устранены.
Digital Experience (DX) (Цифровой опыт)
это взаимодействие пользователя с цифровой точкой соприкосновения – получение обновлений от мобильного приложения, процесс покупки. Доступность, производительность, ошибки, путь пользователя и удобство и простота в использовании. Мониторинг DX важен для сохранения конкурентного преимущества организаций.
Incident triage (Сортировка инцидентов по приоритетам)
первичная реакция после обнаружения инцидента перед началом его устранения или определением, что это было ложное срабатывание. Грамотное структурирование инцидентов по приоритетам позволяет снизить напор на аналитика, уменьшить время реагирования и устранения инцидента, а также убедиться, что только реальные уведомления получают статус "необходимо изучить" или "инцидент".
Root Cause Analysis (RCA) (Анализ причин)
процесс, определяющий корень проблемы в ИТ системе; начинается с определения неполадки на поверхности и затем отслеживает, что послужило причиной неполадки.
Наблюдаемость
измеряет ваше понимание внутренних состояний системы на основе внешних выходных данных.
MTTD (Mean Time to Detect)
среднее время между ИТ инцидентов и временем, когда система замечает его.
MTTR (Mean Time to Recover/Repair/Restore/Resolve/Remediate) –
среднее время между тем, когда сбой системы или компонента был обнаружен и восстановлен.
Метрики отказов
это индикаторы производительности, которые позволяют организациям отслеживать надежность своего оборудования и систем.
MTBF (Mean Time between Failures) (Среднее время работы между отказами)
среднее время работы между отказом одного устройства (системы) и следующим.
MTTF (Mean Time to Failure) (Среднее время наработки на отказ)
среднее время, в течение которого устройство или система должны работать до отказа.
MTRS (Mean Time to Restore Service) (Среднее время восстановления обслуживания)
среднее время, прошедшее с момента обнаружения инцидента до того, как затронутая система или компонент снова станет доступным для пользователей.
MTBSI (Meant Time between System Incidents) (Среднее время между системными инцидентами)
среднее время, прошедшее между обнаружением двух последовательных инцидентов.
Частота отказов
еще один показатель надежности, который измеряет частоту отказов компонента или системы. Выражается как количество отказов за единицу времени.
RAM (Realiabilit, Availability & Maintainability) (Надежность, доступность и ремонтопригодность)
являются элементами проектирования системы, которые влияют на длину и стоимость жизненного цикла системы и ее способность выполнять поставленные задачи.
Надежность
вероятность того, что система будет последовательно выполнять установленную функцию без сбоев в течение заданного периода времени.
Доступность
это вероятность того, что система работает так, как это задумано, когда ее нужно использовать.
Ремонтопригодность
легкость и скорость, с которыми система и ее компоненты могут быть отремонтированы или заменены.
MTTR в DevOps
сколько времени требуется команде DevOps для восстановления системы после производственного сбоя.
ICS (Industrial Control System) (Система промышленного контроля)
термин, описывающий интеграцию аппаратного и программного обеспечения с сетевым подключением с целью поддержания работоспособности критически важной инфраструктуры.
Зонтичная система мониторинга
единый центр сбора информации, накапливающий и визуализирующий поступающую информацию от различных источников с целью корреляции событий, поиска первопричин сбоев и своевременного уведомления о возможных авариях.
Зонтичное решение
это конструктор, предназначенный для построения такой системы управления, которая нужна именно Вам. Полученные данные преобразуются в ценную информационную модель, которая позволит повысить производительность, прибыльность и безопасность вашего бизнеса.
ИТ-ландшафт
это совокупность элементов архитектуры и их отношения в структуре предприятия (это архитектура приложений, бизнес-архитектура, архитектура информации, техническая архитектура и архитектура развёртывания).
Построение ИТ-ландшафта
это представление о будущем системы, определение дальнейшего пути организации, методов и планов ее развития, позволяющие оценить необходимые ресурсы.
IIoT (Industrial Internet of Things) (Интернет Вещей для корпоративного или отраслевого применения)
система физических (производственных) объектов, платформ и приложений, оснащенных технологиями для взаимодействия и обмена данными друг с другом, внешней средой и людьми, предназначенная для повышения эффективности производственных сетей.
Availability Monitroing (Мониторинг доступности/Мониторинг системы)
включающий в себя управление серверов, мониторинг инфраструктуры и сети, предотвращает неблагоприятные ситуации, проверяя время безотказной работы компонентов инфраструктур и уведомляя пользователя о проблемах до того, как они могут оказать влияние на бизнес.
Мониторинг веб производительности
подраздел мониторинга доступности, предназначенный для мониторинга доступности web-сервера или службы в больших деталях.
Управление приложениями/управление производительностью приложений (APM)
инструменты мониторинга, разработанные с учетом приложений, ориентированных на клиентов, что позволяет отслеживать производительность приложений и выявлять проблемы до того, как они станут серьезными.
BAM (Business Activity Monitoring) (Мониторинг деловой активности)
тип инструмента мониторинга, собирающий ключевые показатели эффективности бизнеса и отслеживающий их с течением времени.
Событие (Event)
зарегистрированное системами изменение нормального поведения системы, окружения, процесса, системы или человека.
Уведомление (Alert)
уведомление о конкретном событии или группе событий, которое направляется ответственным лицам или системам для последующей обработки.
Инцидент (Incident)
событие, негативно сказывающееся на конфиденциальности, согласованности или доступности, которые влияют на организацию и бизнес.
Триггер (Trigger)
автоматизированный запуск какого либо действия, как правило, привязан к какому-либо событию в системе мониторинга и управления.
MTTA (Mean Time to Acknowledge (ранее Mean Time to Respond)
среднее время принятия проблемы в обработку, время через которое оператор или автоматизированная система отреагируют на сформировавшуюся проблему.
MTTI (Mean Time to Investigate/Investigation)
среднее время определения проблемы, напрямую влияет на MTTR. Иногда встречается в значении Mean-Time-to-Install — среднее время установки. Существует также интерпретация аббревиатуры как Mean Time to Instrumentation — среднее время до возможности контроля работы, измерения производительности, диагностики ошибок и формирования трейсов. Плюс существует еще одна расшифровка Mean Time to Innocence.
Real-Time Analytics Platform
аналитическая платформа, позволяющая организациям в реальном времени максимально эффективно использовать поступающие данные, помогая извлекать из них ценную информацию и тенденции.
MDR (Managed detection and response)
служба обнаружения и реагирования, специально разработанная для сетей с высокой степенью управления и объединяющая специальную группу аналитиков безопасности с технологиями следующего поколения для обеспечения обнаружения, расследования и реагирования на угрозы в режиме реального времени.
MSSP (Managed Security Service Provider)
MSSP является предшественником MDR. MSSP отслеживают события безопасности сети и отправляют оповещения при обнаружении аномалий. MSSP не расследуют аномалии для устранения ложных срабатываний и не реагируют активно на угрозы безопасности. Некоторые MSSP также предоставляют множество других сетевых услуг, таких как защита от вирусов и управление брандмауэрами.
SIEM (Security Information and Event Management)
управление информацией и событиями безопасности относится к широкому спектру продуктов и услуг, которые варьируются от технологических решений, технологий с административным управлением до управляемой обработки и оповещения о событиях в ИТ. Решения SIEM объединяют данные о сетевом трафике / событиях из разных источников и коррелируют эти данные, чтобы выделить элементы, требующие дальнейшего изучения. Часть «управления» может варьироваться от запуска технологии в качестве внешнего администрирования (обеспечение безопасности, настройка) до уведомления о событиях, требующих расследования, в виде «облегченного» MSSP.
EDR (Endpoint Detection and Response)
это тип MDR, который фокусируется на конечных точках или хостах. Сервисы EDR обычно используют программный агент, установленный на конечных точках, который отправляет информацию в централизованную базу данных для анализа. В общем, этот «анализ» ограничивается сопоставлением сигнатуры шаблона, который указывает на то, что происходит событие, относящееся к информационной или иной безопасности, однако некоторые используют машинное обучение и даже искусственный интеллект для такого определения. Службы EDR могут отключить связь в этой конечной точке, когда инцидент идентифицирован для быстрого карантина, однако для предотвращения ложных срабатываний и необоснованного отключения устройства все еще необходим человеческий анализ, который обычно делегируется подразделениям информационной безопасности, подразделению управления сетью, серверами или рабочими станциями.
Managed Logs (управляемые журналы, управление журналами, мониторинг журналов, log-management)
эти службы мониторинга существуют для проверки журналов (логов), генерируемых многими компонентами вашей сети, для выявления вредоносных действий. Службы управления журналами существуют уже много лет и подсистемы информационной безопасности используют их для выполнения своих задач.
SOC (Security Operations Center)
Центр безопасности операций является централизованным подразделением, занимающимся вопросами безопасности на организационном и техническом уровне. SOC в здании или объекте — это центральное место, откуда персонал контролирует пространство, используя технологии обработки данных. Как правило, SOC оборудован для контроля доступа и управления освещением, сигнализацией и барьерами перемещения.
В области информационно-коммуникационных технологий (ИКТ) термин SOC носит более специальных характер и даже существует отдельный термин ISOC — операционный центр информационной безопасности — это специализированное пространство, на котором осуществляется мониторинг, оценка и защита корпоративных информационных систем (web-сайтов, приложений, баз данных, центров обработки данных и серверов, сетей, настольных компьютеров и других конечных точек).
Можно также встретить иное толкование аббревиатуры SOC — Service Operation Center. Такая трактовка характерна для поставщиков услуг (сервисов), которые уходят от мониторинга и управления инфраструктурой на уровень контроля предоставления услуг.
Соглашение об уровне обслуживания (Service Level Agreement — SLA)
Соглашение об уровне обслуживания (Service Level Agreement — SLA) встречается в договорах между поставщиком и потребителем услуг — в договорах о предоставлении сервиса технической поддержки, доступа к цифровым ресурсам и услугам. Одним из самых понятных сегодня примеров SLA является тарифный план мобильного оператора — за Х рублей в месяц вы получаете объем звонков, данных и SMS (X1, X2, X3); за Y вы получаете Y1, Y2, Y3. Часто встречается требование не только по емкости (например, канал 2Мб/сек), но и доступности (например, связь доступна 99,999% времени в год).
В русле разговоров о мониторинге, контроль выполнения SLA самая понятная для простых людей история и обоснование необходимости иметь мониторинговый центр, программное обеспечение и специалистов.
Целевой уровень обслуживания (Service-Level Objective — SLO)
широко известный благодаря Google, подразумевает, в отличие от SLA, что при обслуживании одних подразделений другими не происходит взаиморасчетов, нет тарифов и штрафных санкций. Концепция заключается в том, что выход из SLO нанесет вред команде, сопровождающей сервис, поэтому они будут настойчиво стараться оставаться в SLO.
Как правило, существует ситуация когда правда то, что чем надежнее услуга, тем дороже она обходится. Каждый сервис должен иметь SLO доступности — без него команда поддержки и все заинтересованные стороны не могут делать суждения о том, нужно ли сделать сервис более надежным (увеличивая стоимость и замедляя разработку) или менее надежным (обеспечивая более высокую скорость разработки).
SLI (Service-Level Indicator)
индикатор успеха сервиса (услуги). Например, частота успешных проверок системы, один из таких индикаторов. Определив и контролируя SLI вы можете получить обоснованные результаты соблюдения SLO и SLA
Клиент
тонкий web-клиент системы и клиенты для мобильных операционных систем Android и iOS.
Сервер
централизованный сервер, на котором хранится и анализируется информация, полученная от агентов, а затем передаётся клиенту. Также здесь содержится информация об учётных записях пользователей.
Центр обработки (Center)
это логический компонент, объединяющий в себе хранилище данных, кэш, REST-сервер, HTTP-сервер и бизнес-логику.
Web-сервер
это HTTP-сервер, обслуживающий запросы клиента. Он отдаёт статические элементы web-интерфейса (HTML, JavaScript, CSS), а также проксирует запросы от клиента к REST-серверу. В качестве web-сервера используется NGINX.
REST-сервер
серверный компонент, обрабатывающий REST-запросы от JavaScript-компонентов на тонком клиенте. Через REST API клиент получает всю информацию об инфраструктуре, а также производит манипуляции с инфраструктурой. REST-сервер реализован в виде отдельного NodeJS-приложения.
Сервер данных
Сервер данных производит анализ поступивших данных. В частности, управляет логикой смены состояний у объектов и связей. Сервер данных реализован в виде отдельного NodeJS-приложения.
Объект
это элемент системы, в пределах которого осуществляется мониторинг. Например, физическое устройство (сервер, процессор), программный модуль (база данных, web-сервер), более высокоуровневый элемент, относящийся к бизнес-процессам (услуга, платформа).
Объекты могут иметь неограниченное количество дочерних объектов.
Иерархия
количество уровней в которой не ограничено, образуется из вложенных в друг друга объектов. Каждый объект принадлежит к определенному классу, которые помогают более наглядно отобразить инфраструктуру, а также определяют логику мониторинга.
Мультиродитель
Мультиродитель, задающийся в общих параметрах объекта, позволяет объекту вместе со своими настроенными условиями перехода состояний, свойствами и прочим отображаться в ветках всех своих родителей и оказывать влияние на них.
Связь
Связь соединяет два объекта друг с другом и может отображать как физическое соединение между объектами (например, соединение сервера с маршрутизатором с помощью Ethernet–кабеля), так и логическое отношение (например, поток данных от одного программного компонента к другому).
Состояние
Состояние связи или объекта – результат мониторинга.
Свойство
это любой вид текстовой информации, привязанной к элементу, в формате имя-значение, который может быть у любого объекта, связи или потока.
Потоки
Потоки, не участвующие в мониторинге и имеющие сугубо информационное значение, отображают логику взаимодействия объектов, например, отображая на схеме последовательность обработки пользовательского запроса.
Подложки
Подложки, не участвующие в мониторинге и имеющие сугубо информационное значение, помогают сделать размещение объектов в стандартном виде визуально восприимчивее.
Документы
Документы (Хранилище Документов) – структура директорий в файловой системе, предназначенная для хранения загруженных документов.
Кэш в памяти (In-Memory кэш)
NoSQL-хранилище данных типа "ключ-значение". Хранит базу данных в оперативной памяти, благодаря чему возможен быстрый доступ к данным и их быстрая обработка. В качестве In-Memory кэша используется Redis.
Хранилище данных (База данных)
механизмы для постоянного хранения данных:
- информация по объектам и связям, их свойства и исторические данные о состояниях хранятся в NoSQL-СУБД - MongoDB v.4.2;
- числовые метрики, по которым строятся графики, сохраняются в базе данных или в специализированном хранилище временных рядов, например OpenTSDB или InfluxDB.
Агент
множество агентов системы, установленных на узлах инфраструктуры и собирающих информацию по ним. Данные, собранные агентом, периодически отправляются в In-Memory кэш и затем анализируются сервером.
Активный мониторинг
опрос устройств с определенной периодичностью с целью определения доступности самих устройств и сервисов, которые они предоставляют, а также проверки текущего состояния устройств, например, процент загрузки процессора и дисков.
Наблюдаемый объект
элемент инфраструктуры, по которому агент собирает данные, как физический элемент (хост, роутер), так и логический (виртуальная машина, TCP-соединение).
Таймаут
время, в течение которого агент будет ждать результатов выполнения проверки с момента ее запуска.
Период проверки
время, через которое агент начнет выполнение следующей проверки после получения результатов предыдущей.
Модуль аналитики
позволяет обнаруживать всплески значений измеряемых метрик и прогнозировать значения метрик через указанный временной интервал.
Каждое правило формирования данных состоит из условий (conditions), при выполнении которых к данным применяются действия (actions).
Журнал событий
осуществляет функции просмотра, фильтрации и поиска SNMP-Trap'ов, MQTT-сообщений, а также просмотра Истории состояний всех объектов системы.
IFrame
виджет, позволяющий внедрять содержимое сторонних сайтов в web-интерфейс системы, например, поток с камеры видеонаблюдения или кастомизированные виджеты.
Механизмы автообнаружения
механизмы, позволяющие добавить большинство интересующих пользователя объектов на карту инфраструктуры в автоматическом режиме.