Как применить конвейеры к набору данных в Transformers?

Kak Primenit Konvejery K Naboru Dannyh V Transformers



Функция Pipeline() является неотъемлемой частью библиотеки Transformer. Требуется несколько входных данных, в которых мы можем определить задачу вывода, модели, механизм токенизации и т. д. Функция конвейера () в основном используется для выполнения задач НЛП над одним или несколькими текстами. Он выполняет предварительную обработку входных данных и постобработку на основе модели для создания удобочитаемых результатов и точного прогнозирования с максимальной точностью.

В этой статье рассматриваются следующие аспекты:







Что такое библиотека набора данных обнимающих лиц?

Библиотека наборов данных Hugging Face — это API, который содержит несколько общедоступных наборов данных и обеспечивает простой способ их загрузки. Эту библиотеку можно импортировать и установить в приложение с помощью команды « пункт команда. Для практической демонстрации загрузки и установки наборов данных библиотеки Hugging Face посетите этот сайт. Ссылка на Google Colab. Вы можете загрузить несколько наборов данных с сайта Центр набора данных обнимающих лиц.



Узнайте больше о функционировании функции конвейера(), обратившись к этой статье « Как использовать функцию Pipeline() в трансформаторах? ».



Как применить конвейеры к набору данных в Hugging Face?

Hugging Face предоставляет несколько различных общедоступных наборов данных, которые можно легко установить с помощью однострочного кода. В этой статье мы увидим практическую демонстрацию применения конвейеров к этим наборам данных. Существует два способа реализации конвейеров в наборе данных.





Метод 1: использование метода итерации

Функция конвейера() также может выполнять итерацию по набору данных и модели. Для этого выполните следующие шаги:

Шаг 1. Установите библиотеку Transformer

Чтобы установить библиотеку Transformer, введите следующую команду:



!pip установить трансформаторы

Шаг 2. Импортируйте конвейеры

Мы можем импортировать конвейер из библиотеки Transformer. Для этого введите следующую команду:

из трубопровода импорта трансформаторов

Шаг 3. Внедрение конвейера

Здесь функция конвейер() реализована на модели « gpt2 ». Вы можете скачать модели с сайта Центр моделей обнимающего лица:

защита imp_pipeline():
для x в диапазоне (1000):
доходность f'Набор данных реализации {x}'


генерировать_pipeline = конвейер (модель = 'gpt2', устройство = 0)
gen_char= 0
для вывода вgener_pipeline(imp_pipeline()):
gen_char += len(output[0]['generated_text'])

В этом коде « генерировать_конвейер ” — это переменная, содержащая функцию конвейера() с моделью “ gpt2 ». Когда он вызывается с помощью « imp_pipeline() » функция автоматически распознает данные, которые увеличиваются в диапазоне, указанном до 1000:

Это займет некоторое время на обучение. Ссылка на Google Ко также дано.

Способ 2: использование библиотеки наборов данных

В этом методе мы продемонстрируем реализацию конвейера с использованием библиотеки «наборов данных»:

Шаг 1: Установите трансформатор

Чтобы установить библиотеку Transformer, введите следующую команду:

!pip установить трансформаторы

Шаг 2. Установите библиотеку наборов данных.

Как « наборы данных Библиотека содержит все общедоступные наборы данных, мы можем установить ее с помощью следующей команды. Установив « наборы данных » мы можем напрямую импортировать любой набор данных, указав его имя:

!pip установить наборы данных

Шаг 3. Конвейер набора данных

Чтобы построить конвейер на основе набора данных, используйте следующий код. KeyDataset — это функция, которая выводит только те значения, которые интересуют пользователя:

из Transformers.pipelines.pt_utils импортировать KeyDataset
из трубопровода импорта трансформаторов
из наборов данных импортируйте load_dataset
gen_pipeline = конвейер (модель = 'hf-internal-testing/tiny-random-wav2vec2', устройство = 0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', Split='validation[:10]') для вывода в gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Вывод на печать сейчас')
Распечатать ('----------------')
печать (выход)

Вывод приведенного выше кода приведен ниже:

Это все из этого руководства. Ссылка на Google Ко также упоминается в этой статье

Заключение

Чтобы применить конвейеры к набору данных, мы можем либо перебрать набор данных с помощью функции конвейера (), либо использовать « наборы данных » библиотека. Hugging Face предоставляет своим пользователям ссылку на репозиторий GitHub как для наборов данных, так и для моделей, которые можно использовать в зависимости от требований. В этой статье представлено подробное руководство по применению конвейеров к набору данных в Transformers.