Метод «Обнимающее лицо» Filter()

Metod Obnimausee Lico Filter



Hugging Face имеет несколько моделей и наборов данных обработки естественного языка (NLP). Эти огромные наборы данных содержат много информации, которая помогает точно обучить модель. Однако иногда нам не нужен весь набор данных, поскольку нам нужна лишь небольшая его часть для удовлетворения наших текущих потребностей. Если мы хотим использовать тот же набор данных, что и обычно, со всей информацией, обучение и оптимизация модели займут много времени, что является пустой тратой времени.

Итак, нам нужен какой-то метод или пакет, который сможет извлечь соответствующую информацию из наборов данных. Проще говоря, мы можем сказать, что нам нужна дополнительная опция фильтра для фильтрации наборов данных в соответствии с нашими требованиями.

Hugging Face предоставляет различные параметры для фильтрации наборов данных, что помогает пользователям создавать индивидуальные наборы данных, содержащие только примеры или информацию, соответствующую конкретным условиям.







Метод Выбрать()

Этот метод работает со списком индексов, а это означает, что нам нужно определить список. Внутри этого списка мы должны указать значения индексов всех тех строк, которые мы хотим извлечь. Но этот метод работает только для небольших наборов данных, а не для огромных наборов данных, поскольку мы не можем увидеть весь набор данных, если он выражен в ГБ (гигабайтах) или ТБ (терабайтах).



Пример :

новый_набор_данных '=' набор данных. выбирать ( [ 0 , одиннадцать , двадцать один , Четыре пять , пятьдесят , 55 ] )

Распечатать ( только ( новый_набор_данных ) )

В этом примере мы использовали метод «выбрать» для фильтрации необходимой информации из набора данных.



Метод Фильтр()

Метод filter() решает проблемы процесса select(), поскольку не имеет конкретного условия. Метод filter() возвращает все строки, соответствующие определенной ситуации или условию.





Пример: Мы сохраняем эту программу Python под именем «test.py».

от наборы данных Импортировать load_dataset

# Шаг 1: Загрузите набор данных
набор данных '=' load_dataset ( 'IMDB' )

# Шаг 2: Определите функцию фильтрации
защита custom_filter ( пример ) :
'''
Пользовательская функция фильтрации для сохранения положительных примеров.
настроение (метка == 1).
'''

возвращаться пример [ 'этикетка' ] == 1

# Шаг 3. Примените фильтр, чтобы создать новый отфильтрованный набор данных.
filtered_dataset '=' набор данных. фильтр ( custom_filter )

# Шаг 4. Проверьте доступные имена столбцов в отфильтрованном наборе данных.
Распечатать ( «Доступные столбцы в отфильтрованном наборе данных:» ,
filtered_dataset. имена столбцов )

# Шаг 5: Доступ к информации из отфильтрованного набора данных
filtered_examples '=' filtered_dataset [ 'тренироваться' ]
num_filtered_examples '=' только ( filtered_examples )

# Шаг 6: Распечатайте общее количество отфильтрованных примеров
Распечатать ( «Всего отфильтрованных примеров:» , num_filtered_examples )

Выход:



Объяснение:

Строка 1: Мы импортируем необходимый пакет load_dataset из наборов данных.

Строка 4: Мы загружаем набор данных «imdb», используя load_dataset.

Строки с 7 по 12: мы определяем пользовательскую функцию фильтрации. « custom_filter « чтобы сохранить примеры с позитивным настроением (метка == 1). Эта функция возвращает только те строки, значение метки которых равно 1.

Строка 15: Эта строка показывает, что набор данных содержит данные обзора фильмов «imdb». Теперь мы применим функцию фильтра к этой базе данных, чтобы отделить положительные отзывы от базы данных, которая далее хранится в «filtered_dataset».

Строки 18 и 19: Теперь мы проверяем, какие имена столбцов доступны в filtered_dataset. Итак, код «filtered_dataset.column_names» предоставляет подробную информацию о наших требованиях.

Строки 22 и 23: В этих строках мы фильтруем столбец «поезд» filtered_dataset и печатаем общее количество (длину) столбца поезда.

Строка 26: В этой последней строке мы печатаем результат строки номер 23.

Фильтр() с индексами

Метод filter() также можно использовать с индексами, как это видно в режиме select(). Но для этого мы должны отметить, что ключевое слово «with_indices=true» должно быть указано вне метода filter(), как показано в следующем примере:

нечетный_набор данных '=' набор данных. фильтр ( лямбда пример , идентификатор: идентификатор % 2 '=' 0 , with_indices '=' Истинный )

Распечатать ( только ( нечетный_набор данных ) )

В этом примере мы использовали метод filter() для фильтрации необходимой информации из набора данных, включая только нечетные строки.

Полную информацию о каждом параметре метода filter() можно найти здесь. связь .

Заключение

Библиотека наборов данных Hugging Face предоставляет мощный и удобный набор инструментов для эффективной работы с различными наборами данных, особенно в контексте задач обработки естественного языка (NLP) и машинного обучения. Функция filter(), представленная в программе, позволяет исследователям и практикам извлекать соответствующие подмножества данных, определяя определяемые пользователем критерии фильтрации. Используя эту функцию, пользователи могут легко создавать новые наборы данных, отвечающие конкретным условиям, например, поддержание позитивного настроения в обзорах фильмов или извлечение определенных текстовых данных.

Эта пошаговая демонстрация показывает, насколько легко загрузить набор данных, применить пользовательские функции фильтра и получить доступ к отфильтрованным данным. Кроме того, гибкость параметров функции позволяет выполнять пользовательские операции фильтрации, включая поддержку многократной обработки больших наборов данных. С помощью библиотеки наборов данных Hugging Face пользователи могут оптимизировать свои данные.