Панды

Pandy



«Python» содержит множество библиотек, и когда мы хотим затем анализировать или манипулировать данными, мы используем эти «Python» библиотеки, и «pandas» также является его библиотекой. Библиотека «панды» используется в области наук о данных, а также в деятельности по машинному обучению. DataFrame «панды» помогает нам сохранять данные. В «пандах», когда мы хотим объединить данные, мы используем метод «qcut ()». Метод «qcut()» используется для преобразования непрерывных признаков в категориальные. Мы можем добавлять различные типы параметров в этот метод «qcut()» для получения различных типов результатов. Это руководство полностью посвящено методу «qcut()», и здесь мы подробно объясним метод «qcut()». В этом уроке мы объясним вам, как мы выполняем биннинг данных с помощью функции «qcut ()» в «пандах».

Пример #01

Мы будем применять метод «qcut()» в этих кодах, и мы будем делать эти коды в приложении «Spyder». Когда нам приходится работать с «пандами», мы можем получить доступ к их функциям только тогда, когда импортируем библиотеку «панд» в наши коды. Сначала ставим «импорт», а потом пишем «панды как pd». Теперь нам нужно применить метод «qcut ()», поэтому для этого мы создаем здесь DataFrame. Строим «Random_df», содержащий в качестве столбцов «R_ID, R_name и R_age», а также в «R_ID» помещаем «R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, Р_61, Р_73 и Р_81». Затем мы добавляем «Теодор, Тедди, Ной, Лео, Айви, Генри, Фредди, Эвелин, Ава, Уиллоу, Тео, Оскар, Джейкоб и Харпер» в столбец «R_name». После этого мы вставляем «21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 и 40» в столбец «R_age». Теперь мы используем «print ()», который содержит «Random_df», и это поможет в отображении кадра данных «Random_df». Мы только что создали DataFrame и еще не применяем метод «qcut()».








Значок «Выполнить» помогает нам выполнять коды. Когда мы нажимаем этот значок «Выполнить», результат этого кода отображается на терминале приложения «Spyder». DataFarme «Random_df» показан как результат кода, который мы написали в этом примере. Теперь применим метод «qcut()» и также покажем его результат.




Мы собираем данные здесь. Мы объединяем столбец «R_age» и размещаем метод «pd.qcut ()», который является методом «панд», который помогает в объединении данных. В этом методе мы вставляем имя DataFrame, а также имя столбца, к которому мы хотим применить этот метод «qcut()». Мы также устанавливаем значение «q» равным «5», и оно используется для разделения данных столбца «R_age» на пять равных квантилей. Мы добавляем метод «qcut ()» в «print ()», чтобы он также отображал данные биннинга на терминале.




Здесь отображаются данные после биннинга, и они разрезают «R_age» на пять квантилей. Он также отображает категории, в которых собраны данные столбца «R_age». Категориальный ряд представляет ячейки «R_age».






Мы также можем настроить метку для этих корзин. Мы добавляем эти метки корзин, чтобы их было легко интерпретировать. Добавляем в «Random_df» столбец «R_age_qcut», в котором добавляем метки этих бинов. Мы снова используем метод «pd.qcut()» для их маркировки. Мы добавляем в него ярлыки «маленький, не такой уж маленький, посредственный, высокий и самый высокий». Затем мы снова помещаем «Random_df» в «print ()».


Все бункеры помечены и представлены в этом результате. В этом кадре данных отображается столбец «R_age_qcut», в котором показаны помеченные ячейки.



Пример #02

Для создания DataFrame мы сначала добавляем «оценки», то есть «3, 6, 8, 7, 2, 5, 1, 9, 4, 7 и 8». Затем мы добавляем имена студентов в «студенты», а именно «Питер, Бромли, Джеймс, Дэвид, Эллис, Джон, Джеймс, Сэмюэл, Уильям, Ховард и Александр». Затем мы создаем «Grades_df», где мы добавили метод «pd.DataFrame ()», и в этом методе мы помещаем «Std_name», которое будет отображаться как имя столбца, и присваиваем ему значения «students». Затем мы устанавливаем «Students_grades» в качестве имени столбца DataFrame, а также назначаем здесь «оценки», которые мы создали выше. После этого у нас есть «print ()», в котором мы добавляем «Grades_df» для печати.


В результате этого кода отображается DataFrame, содержащий два столбца. Теперь мы применим метод «qcut ()» к столбцу «Students_grades» для объединения данных значений этого столбца.


Мы добавляем сюда новый столбец «grade», в котором мы применили «pd.qcut()» к столбцу «Students_grades», а также мы использовали «4» для значения «q», поэтому он будет сокращаться. данные на четыре равных квантиля. После этого мы указываем эти квантили здесь, помещая значения в «q», которые равны «0, .4, .8 и 1». Затем мы также отображаем это. Теперь мы маркируем эти собранные данные, и добавляемые здесь метки — «D, C, A и B», которые также сохраняются в столбце «оценка».


Здесь данные после объединения отображаются здесь в столбце «оценка», и они разрезают данные столбца «Студенты_оценки» на четыре равных квантиля.


В этом результате отображается DataFrame, который мы получаем после применения метода «qcut()» и указания квантилей.


Теперь, после добавления меток к этим корзинам, они также отображаются в этом результате в столбце «Оценка», и вы можете видеть, что он присваивает метки в соответствии со значениями корзины.

Пример #03

Мы также можем применить метод «qcut ()» к данным файла CSV. Для этого мы сначала читаем данные CSV-файла с помощью метода «read_csv()». Читаем данные файла «office2.csv», а затем данные этого файла помещаем в «Office_df». Этот метод преобразует данные файла «office2» в DataFrame и сохраняет их в «Office_df». Затем мы также показываем эти данные, помещая «Office_df» в «print ()». После этого мы добавляем новый столбец с именем «Units_qcut», к которому мы применяем функцию «pd.qcut ()» для столбца «Единицы».

Кроме того, мы устанавливаем значение переменной «q» равным «5», что разделит данные на пять равных квантилей. Данные после разрезания на 5 равных квантилей сохраняются в столбце «Units_qcut», и этот столбец также добавляется в «Office_df», а «Office_df» снова отображается здесь с помощью «print()». Теперь мы помечаем эти сгруппированные данные, добавляя метки в метод «qcut ()», а именно: «Единица 1, Единица 2, Единица 3, Единица 4 и Единица 5», а также сохраняем их в столбце «Ярлыки». . Мы также визуализируем этот DataFrame, в котором добавлен столбец «Ярлыки».


Данные, которые мы получаем после чтения файла «office2.csv», отображаются здесь в виде DataFrame. Затем добавляется столбец «Units_qcut», в котором отображаются бинированные значения столбца «Единицы». После этого также добавляется столбец «Ярлыки», который присваивает метки этим сгруппированным значениям. Все это делается с помощью метода «qcut ()» в «пандах».

Вывод

В этом руководстве мы подробно объяснили метод «qcut ()», который помогает объединять данные в «пандах». Мы обсудили, что данные группируются в соответствии со значением квантиля «q», которое мы добавили в методе «qcut ()», а также мы настроили метки для этих объединенных данных. Мы изучили метод «qcut ()» и применили этот метод к столбцам DataFrame, а также мы применили этот метод «qcut ()» к данным файла CSV после чтения файлов CSV. Мы представили результаты всех кодов в этом руководстве, чтобы четко объяснить и показать результат метода «qcut ()».