Как вывести dataframe pandas полностью

Как вывести всю таблицу в Pandas?

Как вывести всю таблицу в Pandas (со всеми рядами и строками, без сокращения данных).

Многоточие в таблице для программиста, как закрытые двери в квартире для кота: может быть скрытая информация и не пригодится, но взглянуть-то хочется! Очень часто такой подход позволяет достичь хороших результатов: коту найти сосиску, ну а нам, любителям табличных данных — выявить возможную закономерность, найти новый признак или возможный баг в данных. Давайте же разберемся, что мешает нам взглянуть на данные без ограничений и вывести всю таблицу в Pandas целиком.

Как выглядит таблица в сокращенном варианте?

Для начала смоделируем эту неприятную ситуацию: загрузим таблицу с данными в переменную data и попробуем вывести ее на экран. В качестве демонстративной таблицы, я загружу данные о ТОП-550 литературных бестселлерах за 2009-2019 годы, набравших наибольшее число продаж на сайте Amazon. Данные выложены на сайте Kaggle, скачать их можно на странице: https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019, либо с моего сайта по ссылке «Топ-550 литературных бестселлеров».

Итак, загружаю данные и вывожу таблицу на экран:

Согласитесь, не очень удобный для восприятия формат вывода: не смотря на то, что под таблицей гордо располагается информация о том, что таблица содержит 550 рядов и 7 столбцов, нам для обзора доступна лишь небольшая часть из них. Остальное содержимое скрыто за многоточием. Кроме этого, некоторые данные в столбце «Name», похоже, усечены. Давайте исправим это!

Корректируем вывод табличных данных с помощью функции set_option() в Pandas

Для начала небольшой спойлер:

При установке значений опций ‘display.max_rows’, ‘display.max_columns’, ‘display.max_colwidth’ как None, можно сбросить ограничения на число выводимых рядов, столбцов таблицы, а также на длину записи в таблице:

А теперь подробности!

В Pandas существует служебная функция set_option(), позволяющая настроить формат вывода таблицы по своему желанию. Рассмотрим наиболее полезные для работы с таблицами параметры функции set_option():

1. display.max_rows

При установке значения для параметра ‘display.max_rows’ Вы можете ограничить количество выведенных строк с данными значением типа int. Рассмотрим пример:

В данном случае на экран будут выведены 7 строк: 3 первых и 3 последних записи таблицы, разделенные строкой с многоточием.

Для того, чтобы сбросить ограничения на число строк, нужно определить значение опции ‘display.max_rows’ как None:

2. display.max_columns

Настройка этой опции позволяет регулировать число выводимых столбцов. Если параметр ‘display.max_columns’ определен значением типа int, меньшим, чем действительное число столбцов в таблице, то при выводе таблицы, мы увидим столбец из многоточий, как на приведенном в начале статьи «Рис.1».

Чтобы снять ограничения на количество столбцов, нужно для опции ‘display.max_columns’ установить значение None:

3. display.max_colwidth

Эта опция может быть задана числовым значением типа int или определена, как None. Числовое значение позволяет ограничить количество символов в столбце таблицы. Рассмотрим пример:

Приведенная выше в качестве примера строка, ограничит все записи в таблице 10-ю символами.

Для вывода всех символов в записях, нужно определить значение опции ‘display.max_colwidth’ как None:

Результат сброса ограничений на вывод табличных данных

Протестируем работу функции set_option() на рассмотренном в начале статьи примере. Сбросим ограничения на количество отображаемых данных перед выводом таблицы на экран:

Ограничения сняты! На изображении выше видно, что многоточия пропали, появилась полоса прокрутки, количество записей увеличилось, а в столбце Name выводится полная информация.

Мы достигли желаемой цели благодаря верным значениям опций в функции set_option()!

Источник

7 полезных операций в Pandas при работе с DataFrame

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Apr 27 · 7 min read

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Абстракция датафрейма является одной из наиболее полезных концепций в современной экосистеме управления данными. Вращается она главным образом вокруг табличных структур, которые имеют повышенную производительность при обновлении и запросе данных различными способами. Сериализация/десериализация этих структур из/в различные форматы файлов упрощает работу с данными. Более того, возможность производить различные SQL-подобные операции, такие как объединение, наряду с выполнением математических вычислений в самом датафрейме существенно расширяет возможности программиста.

Эта статья подчеркивает некоторые на и более полезные операции, которые можно выполнять с помощью абстракции датафрейма. Реализовывать мы их будем через библиотеку Pandas. Постараюсь представить материал в интуитивно понятной форме, чтобы в дальнейшем вы могли применить эти знания в других случаях или при работе с другими фреймворками.

1. Конкатенация DataFrame

Если требуется конкатенировать их вдоль x, то вызов API будет таким:

Если же вдоль y, то таким:

Применение

Вариант с axis = 0 используется нечасто, но его можно применять в сценариях, когда нужно обработать массивы данных, собранных с упорядочиванием. То есть, когда последовательность данных соответствует последовательности других массивов данных. В таком случае эти массивы можно объединить вдоль оси x, получив более объемное и значительное представление в табличном формате. Затем к полученной структуре можно применять операции, использующие все типы данных в ее столбцах.

2. Разделение DataFrame

Датафрейм можно разделить множеством способов, и выбор техники полностью зависит от цели этого разделения. Рассмотрим ряд случаев.

Просмотр сведений

Исключение столбцов

Этот метод разделяет датафрейм вдоль оси y, то есть просто выбрасывает из него часть столбцов. Используется данный метод в типичном сценарии, когда нам не нужно, чтобы конечный DataFrame содержал эти столбцы, или когда мы предполагаем, что при дальнейшем обновлении структура станет занимать слишком много памяти.

Удаление датафреймов друг из друга

Применение

Предположим, что столбец A — это определенный вид ID сведений о работнике. К примеру, датафрейм X состоит из всех данных о работниках, а датафрейм Y содержит данные (с той же структурой) о работниках, не разбирающихся в Python. Нам нужно отфильтровать сведения о сотрудниках, которые не знакомы с Python.

Определение дельты записей на основе столбца

Применение

Взгляните на эту таблицу:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Эти пары могли быть сгенерированы, например, из двух журналов: старого и нового. Нам нужно найти пары ID, принадлежащие одному и тому же человеку. Предположим, что ваш отдел кадров неожиданно заявляет, что определенный список ( hr_list ) сотрудников с ID_1 больше в компании не работает. Как удалить их из этого датафрейма?

Разделение на основе значений столбцов

Датафрейм можно фильтровать на основе значений столбца. В этом случае критерий отбора может включать несколько выражений при условии, что они будут возвращать логические значения.

Это простейший пример.

3. Подсчет записей в столбце

Это эффективный способ определения количества различных элементов в столбце.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Ответ на приведенный выше запрос можно получить следующим подходом:

4. Чтение фрагментов DataFrame

В некоторых случаях будет более эффективно считывать только части датафрейма, особенно при его больших размерах. Обратите внимание, что каждый датафрейм является индексированной табличной структурой, находящейся в памяти, а значит потребляющей пространство, потенциально нужное другим структурам данных. В связи с этим при работе с большими массивами информации всегда лучше считывать только ее нужную часть.

Более того, можно считывать большие файлы в отдельные фрагменты и маршалировать их в датафреймы.

5. Применение функций к строкам

Есть и альтернативный метод. Его можно использовать, когда функцию f() требуется применить только к одному столбцу.

6. Объединение двух датафреймов

Однако стоит заметить, что операция merge является дорогостоящей, в связи с чем перед слиянием больших датасетов стоит проявлять особое внимание. В случаях, когда датасеты слишком велики, рекомендуется использовать методы группировки (англ.), чтобы избежать перегрузки памяти и связанных с этим проблем производительности.

7. Переименование столбцов

Переименовывать столбцы особенно полезно перед сериализацией файла или перед внедрением стороннего хранилища данных.

Источник

Моя шпаргалка по pandas

Один преподаватель как-то сказал мне, что если поискать аналог программиста в мире книг, то окажется, что программисты похожи не на учебники, а на оглавления учебников: они не помнят всего, но знают, как быстро найти то, что им нужно.

Возможность быстро находить описания функций позволяет программистам продуктивно работать, не теряя состояния потока. Поэтому я и создал представленную здесь шпаргалку по pandas и включил в неё то, чем пользуюсь каждый день, создавая веб-приложения и модели машинного обучения.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

1. Подготовка к работе

Если вы хотите самостоятельно опробовать то, о чём тут пойдёт речь, загрузите набор данных Anime Recommendations Database с Kaggle. Распакуйте его и поместите в ту же папку, где находится ваш Jupyter Notebook (далее — блокнот).

Теперь выполните следующие команды.

После этого у вас должна появиться возможность воспроизвести то, что я покажу в следующих разделах этого материала.

2. Импорт данных

▍Загрузка CSV-данных

Здесь я хочу рассказать о преобразовании CSV-данных непосредственно в датафреймы (в объекты Dataframe). Иногда при загрузке данных формата CSV нужно указывать их кодировку (например, это может выглядеть как encoding=’ISO-8859–1′ ). Это — первое, что стоит попробовать сделать в том случае, если оказывается, что после загрузки данных датафрейм содержит нечитаемые символы.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

▍Создание датафрейма из данных, введённых вручную

Это может пригодиться тогда, когда нужно вручную ввести в программу простые данные. Например — если нужно оценить изменения, претерпеваемые данными, проходящими через конвейер обработки данных.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Данные, введённые вручную

▍Копирование датафрейма

Копирование датафреймов может пригодиться в ситуациях, когда требуется внести в данные изменения, но при этом надо и сохранить оригинал. Если датафреймы нужно копировать, то рекомендуется делать это сразу после их загрузки.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

3. Экспорт данных

▍Экспорт в формат CSV

При экспорте данных они сохраняются в той же папке, где находится блокнот. Ниже показан пример сохранения первых 10 строк датафрейма, но то, что именно сохранять, зависит от конкретной задачи.

4. Просмотр и исследование данных

▍Получение n записей из начала или конца датафрейма

Сначала поговорим о выводе первых n элементов датафрейма. Я часто вывожу некоторое количество элементов из начала датафрейма где-нибудь в блокноте. Это позволяет мне удобно обращаться к этим данным в том случае, если я забуду о том, что именно находится в датафрейме. Похожую роль играет и вывод нескольких последних элементов.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Данные из начала датафрейма

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Данные из конца датафрейма

▍Подсчёт количества строк в датафрейме

▍Подсчёт количества уникальных значений в столбце

Для подсчёта количества уникальных значений в столбце можно воспользоваться такой конструкцией:

▍Получение сведений о датафрейме

В сведения о датафрейме входит общая информация о нём вроде заголовка, количества значений, типов данных столбцов.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Сведения о датафрейме

▍Вывод статистических сведений о датафрейме

Знание статистических сведений о датафрейме весьма полезно в ситуациях, когда он содержит множество числовых значений. Например, знание среднего, минимального и максимального значений столбца rating даёт нам некоторое понимание того, как, в целом, выглядит датафрейм. Вот соответствующая команда:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Статистические сведения о датафрейме

▍Подсчёт количества значений

Для того чтобы подсчитать количество значений в конкретном столбце, можно воспользоваться следующей конструкцией:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Подсчёт количества элементов в столбце

5. Извлечение информации из датафреймов

▍Создание списка или объекта Series на основе значений столбца

Это может пригодиться в тех случаях, когда требуется извлекать значения столбцов в переменные x и y для обучения модели. Здесь применимы следующие команды:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты работы команды anime[‘genre’].tolist()

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты работы команды anime[‘genre’]

▍Получение списка значений из индекса

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Получение списка значений столбцов

Вот команда, которая позволяет получить список значений столбцов:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

6. Добавление данных в датафрейм и удаление их из него

▍Присоединение к датафрейму нового столбца с заданным значением

Иногда мне приходится добавлять в датафреймы новые столбцы. Например — в случаях, когда у меня есть тестовый и обучающий наборы в двух разных датафреймах, и мне, прежде чем их скомбинировать, нужно пометить их так, чтобы потом их можно было бы различить. Для этого используется такая конструкция:

▍Создание нового датафрейма из подмножества столбцов

Это может пригодиться в том случае, если требуется сохранить в новом датафрейме несколько столбцов огромного датафрейма, но при этом не хочется выписывать имена столбцов, которые нужно удалить.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результат выполнения команды

▍Удаление заданных столбцов

Этот приём может оказаться полезным в том случае, если из датафрейма нужно удалить лишь несколько столбцов. Если удалять нужно много столбцов, то эта задача может оказаться довольно-таки утомительной, поэтому тут я предпочитаю пользоваться возможностью, описанной в предыдущем разделе.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Добавление в датафрейм строки с суммой значений из других строк

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результат выполнения команды

Команда вида df.sum(axis=1) позволяет суммировать значения в столбцах.

7. Комбинирование датафреймов

▍Конкатенация двух датафреймов

Эта методика применима в ситуациях, когда имеются два датафрейма с одинаковыми столбцами, которые нужно скомбинировать.

В данном примере мы сначала разделяем датафрейм на две части, а потом снова объединяем эти части:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Датафрейм, объединяющий df1 и df2

▍Слияние датафреймов

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

8. Фильтрация

▍Получение строк с нужными индексными значениями

Индексными значениями датафрейма anime_modified являются названия аниме. Обратите внимание на то, как мы используем эти названия для выбора конкретных столбцов.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Получение строк по числовым индексам

Следующая конструкция позволяет выбрать три первых строки датафрейма:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Получение строк по заданным значениям столбцов

Для получения строк датафрейма в ситуации, когда имеется список значений столбцов, можно воспользоваться следующей командой:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

Если нас интересует единственное значение — можно воспользоваться такой конструкцией:

▍Получение среза датафрейма

Эта техника напоминает получение среза списка. А именно, речь идёт о получении фрагмента датафрейма, содержащего строки, соответствующие заданной конфигурации индексов.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Фильтрация по значению

Из датафреймов можно выбирать строки, соответствующие заданному условию. Обратите внимание на то, что при использовании этого метода сохраняются существующие индексные значения.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

9. Сортировка

Для сортировки датафреймов по значениям столбцов можно воспользоваться функцией df.sort_values :

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

10. Агрегирование

▍Функция df.groupby и подсчёт количества записей

Вот как подсчитать количество записей с различными значениями в столбцах:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Функция df.groupby и агрегирование столбцов различными способами

▍Создание сводной таблицы

Для того чтобы извлечь из датафрейма некие данные, нет ничего лучше, чем сводная таблица. Обратите внимание на то, что здесь я серьёзно отфильтровал датафрейм, что ускорило создание сводной таблицы.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

11. Очистка данных

▍Запись в ячейки, содержащие значение NaN, какого-то другого значения

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Таблица, содержащая значения NaN

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты замены значений NaN на 0

12. Другие полезные возможности

▍Отбор случайных образцов из набора данных

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Перебор строк датафрейма

Следующая конструкция позволяет перебирать строки датафрейма:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Результаты выполнения команды

▍Борьба с ошибкой IOPub data rate exceeded

Если вы сталкиваетесь с ошибкой IOPub data rate exceeded — попробуйте, при запуске Jupyter Notebook, воспользоваться следующей командой:

Итоги

Здесь я рассказал о некоторых полезных приёмах использования pandas в среде Jupyter Notebook. Надеюсь, моя шпаргалка вам пригодится.

Источник

Основы Pandas №1 // Чтение файлов, DataFrame, отбор данных

Pandas — одна из самых популярных библиотек Python для аналитики и работы с Data Science. Это как SQL для Python. Все потому, что pandas позволяет работать с двухмерными таблицами данных в Python. У нее есть и масса других особенностей. В этой серии руководств по pandas вы узнаете самое важное (и часто используемое), что необходимо знать аналитику или специалисту по Data Science. Это первая часть, в которой речь пойдет об основах.

Примечание: это практическое руководство, поэтому рекомендуется самостоятельно писать код, повторяя инструкции!

Чтобы разобраться со всем, необходимо…

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Теперь все настроено! Переходим к руководству по pandas! Первый вопрос:

Как открывать файлы с данными в pandas

Структуры данных Python

В pandas есть два вида структур данных: Series и DataFrame.

Series в pandas — это одномерная структура данных («одномерная ndarray»), которая хранит данные. Для каждого значения в ней есть уникальный индекс.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

DataFrame — двухмерная структура, состоящая из колонок и строк. У колонок есть имена, а у строк — индексы.

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

В руководстве по pandas основной акцент будет сделан на DataFrames. Причина проста: с большей частью аналитических методов логичнее работать в двухмерной структуре.

Вернемся во вкладку “Home” https://you_ip:you_port/tree Jupyter для создания нового текстового файла…

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

затем скопируем данные выше, чтобы вставить информацию в этот текстовый файл…

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

…и назовем его zoo.csv!

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Для этого нужна функция read_csv()

Введем следующее в новую строку:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Если кликнуть на ссылку, файл с данными загрузится на компьютер. Но он ведь не нужен вам на ПК. Его нужно загрузить на сервер и потом в Jupyter Notebook. Для этого нужно всего два шага.

Шаг 1) Вернуться в Jupyter Notebook и ввести эту команду:

Это загрузит файл pandas_tutorial_read.csv на сервер. Проверьте:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Если кликнуть на него…

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

…можно получить всю информацию из файла.

Шаг 2) Вернуться в Jupyter Notebook и использовать ту же функцию read_csv (не забыв поменять имя файла и значение разделителя):

Данные загружены в pandas!

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Что-то не так? В этот раз не было заголовка, поэтому его нужно настроить самостоятельно. Для этого необходимо добавить параметры имен в функцию!

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Примечание: если вам интересно, что в этом наборе, то это лог данных из блога о путешествиях. Ну а названия колонок говорят сами за себя.

Отбор данных из dataframe в pandas

Это первая часть руководства, поэтому начнем с самых простых методов отбора данных, а уже в следующих углубимся и разберем более сложные.

Вывод всего dataframe

Базовый метод — вывести все данные из dataframe на экран. Для этого не придется запускать функцию pd.read_csv() снова и снова. Просто сохраните денные в переменную при чтении!

После этого можно будет вызывать значение article_read каждый раз для вывода DataFrame!

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Вывод части dataframe

Иногда удобно вывести не целый dataframe, заполнив экран данными, а выбрать несколько строк. Например, первые 5 строк можно вывести, набрав:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Или последние 5 строк:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Или 5 случайных строк:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Вывод определенных колонок из dataframe

А это уже посложнее! Предположим, что вы хотите вывести только колонки «country» и «user_id».

Для этого нужно использовать команду в следующем формате:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Есть предположения, почему здесь понадобились двойные квадратные скобки? Это может показаться сложным, но, возможно, так удастся запомнить: внешние скобки сообщают pandas, что вы хотите выбрать колонки, а внутренние — список (помните? Списки в Python указываются в квадратных скобках) имен колонок.

Поменяв порядок имен колонов, изменится и результат вывода.

Это DataFrame выбранных колонок.

Примечание: иногда (особенно в проектах аналитического прогнозирования) нужно получить объекты Series вместе DataFrames. Это можно сделать с помощью одного из способов:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Фильтрация определенных значений в dataframe

Если прошлый шаг показался сложным, то этот будет еще сложнее!

Предположим, что вы хотите сохранить только тех пользователей, которые представлены в источнике «SEO». Для этого нужно отфильтровать по значению «SEO» в колонке «source»:

Важно понимать, как pandas работает с фильтрацией данных:

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Как вывести dataframe pandas полностью. Смотреть фото Как вывести dataframe pandas полностью. Смотреть картинку Как вывести dataframe pandas полностью. Картинка про Как вывести dataframe pandas полностью. Фото Как вывести dataframe pandas полностью

Выглядит сложно? Возможно. Но именно так это и работает, поэтому просто выучите, потому что пользоваться этим придется часто!

Функции могут использоваться одна за другой

Важно понимать, что логика pandas очень линейна (как в SQL, например). Поэтому если вы применяете функцию, то можете применить другую к ней же. В таком случае входящие данные последней функции будут выводом предыдущей.

Например, объединим эти два метода перебора:

Первая строчка выбирает первые 5 строк из набора данных. Потом она выбирает колонки «country» и «user_id».

Можно ли получить тот же результат с иной цепочкой функций? Конечно:

В этом случае сначала выбираются колонки, а потом берутся первые 5 строк. Результат такой же — порядок функций (и их исполнение) отличается.

А что будет, если заменить значение «article_read» на оригинальную функцию read_csv():

Так тоже можно, но это некрасиво и неэффективно. Важно понять, что работа с pandas — это применение функций и методов один за одним, и ничего больше.

Проверьте себя!

Как обычно, небольшой тест для проверки! Выполните его, чтобы лучше запомнить материал!

Его можно преподнести одной строкой:

Или, чтобы было понятнее, можно разбить на несколько строк:

Итого

Вот и все. В следующей статье вы узнаете больше о разных методах агрегации (например, sum, mean, max, min) и группировки.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *