Что такое типы данных Amazon Redshift?

Cto Takoe Tipy Dannyh Amazon Redshift



Amazon Redshift — это облачное решение, предлагаемое AWS, которое выполняет функцию хранилища данных. Хранилище данных — это большое пространство в облаке, в котором хранятся огромные объемы данных. Разница между хранилищем данных и базой данных заключается в том, что первое хранит не только текущие данные, но и полную историю данных.

В этой статье вы узнаете об Amazon Redshift от AWS и типах данных, которые поддерживает этот сервис.







Что такое Amazon RedShift?

Это облачное решение для хранения данных, основанное на «Постгрес SQL» . Он использует технологию, называемую «Массивно-параллельная обработка (MPP)» обрабатывать петабайты данных с молниеносной скоростью. Это обеспечивает простое решение для прогнозирования в реальном времени на основе исторических данных и потоковых решений.



На следующем рисунке показан рабочий механизм Amazon Redshift:







Это графическое объяснение того, как работает Amazon Redshift, очень простое и понятное. Он дает нам информацию о том, как данные извлекаются и обрабатываются для получения выходных данных и создания приложений, управляемых данными.

Архитектуру хранилища данных Amazon Redshift также можно увидеть на рисунке ниже:



Теперь мы перейдем к использованию и особенностям этого сервиса.

Функции

Как уже упоминалось, Amazon Redshift основан на PostgreSQL и использует технологию Massively Parallel Processing, которая позволяет мгновенно обрабатывать петабайты данных. Таким образом, Redshift предлагает большое количество функций и вариантов использования. Некоторые из этих функций приведены ниже:

  • Безопасность данных и шифрование.
  • Бизнес-аналитика.
  • Поддержка приложений, управляемых данными.
  • Предиктивный анализ.
  • Автоматическое повторение задач.
  • Параллельное масштабирование данных.
  • Хранилище данных.

Некоторые дополнительные функции этого сервиса можно увидеть на рисунке ниже:

Это была большая часть функций, которые предлагает Redshift, и теперь мы перейдем к типам данных, поддерживаемым этой службой.

Типы данных

Amazon Redshift — это решение для хранения данных с большим количеством функций. Он поддерживает как структурированные, так и неструктурированные типы данных. Поскольку он основан на PostgreSQL, данными можно управлять с помощью простых SQL-запросов.

Теперь возникает другой вопрос, т. е. чем эти форматы данных отличаются друг от друга? Давайте обсудим эти два формата данных.

Структурированные данные

Тип данных с высокой степенью форматирования, который легко транслируется алгоритмами машинного обучения, называется структурированными данными. База данных SQL работает со структурированными данными. Структурированные данные представлены в табличной форме, например данные, используемые реляционными базами данных.

Одной из широко используемых систем управления базами данных SQL является MYSQL. Его архитектуру можно увидеть ниже на данном рисунке:

Неструктурированные данные

Неструктурированные данные не содержат шаблонов и форматов, например данные, используемые в нереляционных базах данных. MongoDB — известная нереляционная база данных. Запросы SQL не работают с нереляционными базами данных, поэтому такие базы данных также называются базами данных NoSQL.

Как уже упоминалось, MongoDB — это неструктурированная система управления базами данных, и ее архитектуру можно увидеть ниже на приведенном рисунке:

Мы рассмотрели два основных типа данных, используемых в базах данных, и теперь перейдем к фактическим типам данных, поддерживаемым Amazon Redshift. Эти типы данных:

  • Числовые данные
  • Данные персонажа
  • Данные даты и времени
  • Логические данные
  • Данные HLLSKETCH
  • СУПЕР данные
  • ЗАМЕНА Данные

Давайте обсудим эти типы данных:

Числовые данные

Этот тип данных говорит сам за себя. Он поддерживает данные в виде целых чисел, десятичных дробей, чисел с плавающей запятой и других числовых типов данных.

Характеристики целочисленного типа данных можно увидеть на рисунке ниже:

Десятичный тип данных хранит данные на основе точности пользователя. Его характеристики следующие:

Данные персонажа

Типы данных CHAR и VARCHAR относятся к категории символьных типов данных. NCHAR и NVARCHAR также являются символьными типами данных. В отличие от CHAR и VARCHAR, эти два типа данных хранят символы Юникода фиксированной длины. Давайте посмотрим на свойства этих типов данных, например:

  • CHAR, CHARACTER, NCHAR имеют диапазон 4 КБ.
  • VARCHAR, NVARCHAR имеет диапазон 64 КБ.
  • BPCHAR имеет диапазон 256 байт.
  • ТЕКСТ имеет диапазон 260 байт.

Данные даты и времени

Типы данных даты и времени: DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ. Функциональные возможности этих типов данных следующие:

  • DATE просто хранит даты календаря.
  • TIME хранит время без привязки к часовому поясу. По умолчанию это UTC.
  • TIMETZ хранит время относительно часового пояса. По умолчанию это UTC как в пользовательских, так и в системных таблицах.
  • TIMESTAMP включает не только время, но и даты. По умолчанию это UTC как в пользовательских, так и в системных таблицах.
  • TIMESTAMPTZ включает не только время, но и даты. По умолчанию это UTC только в пользовательских таблицах.

Логические данные

Логический тип данных — это двоичный тип данных, что означает наличие только двух значений. Таблица характеристик для типа данных Boolean представлена ​​ниже на рисунке:

Данные HLLSKETCH

Этот тип данных используется для хранения эскизов. Redshift может представлять эскизы как в разреженной, так и в плотной форме. Эскизы начинаются как разреженные и постепенно становятся плотными, когда плотный формат обеспечивает большую эффективность при переходе по ссылке.

СУПЕР данные

Этот тип данных имеет дело с неструктурированными данными, которые могут быть в форме массивов, вложенных структур или JSON. Нет модели или формата данных. Пользователи могут изучить дополнительную информацию, перейдя по ссылке.

ЗАМЕНА Данные

Этот тип данных также хранит символы. Однако длина ограничена. Amazon Redshift позволяет преобразовать данные VARBYTE в данные любого целочисленного или символьного типа. Чтобы получить больше информации об этом типе данных, перейдите по ссылке ниже.

Это все, что есть в Amazon Redshift и поддерживаемых им типах данных.

Заключение

Amazon Redshift — это сервис AWS, который в своей базовой форме служит для хранилища данных, но представляет собой очень мощное и функциональное решение для аналитики и прогнозирования. В этой статье обсуждался Redshift и поддерживаемые им типы данных. Эти типы данных были кратко объяснены вместе с их характеристиками.