Основы статистической обработки педагогической информации, Соломатин Денис

Основы статистической обработки педагогической информации

на обложку

Соломатин Денис

Шрифт:

База данных о бриллиантах (diamonds) поставляется в комплекте ggplot2 и содержит информацию о ~54 000 дорогостоящих украшениях, включая цену, размер в каратах, цвет, прозрачность и огранку каждого из них. Несомненно, онлайн-учителю любой по карману. Диаграмма показывает, что бриллиантов с идеальной огранкой имеется гораздо больше, чем с черновой обработкой:

ggplot (data = diamonds) +

geom_bar (mapping = aes (x = cut, colour = diamonds$color))

На

оси x диаграмма показывает огранку (cut) алмазов. На оси y с учетом цвета отображается их общее количество (count), но в базе данных не хранится поле count. Откуда же берется информация о количестве? Одни алгоритмы графопостроителей, например диаграммы рассеяния, формируют изображение по необработанным значениям исходного набора данных. Другие, например гистограммы, вычисляют новые вспомогательные значения при построении. Гистограммы, как частотные диаграммы, преобразуют ваши данные, осуществляют подсчеты числа записей определенного типа, будто раскладывая их по ящикам. При масштабировании последних диаграмма адаптируется к объему исходных данных, а затем строятся прямоугольники нужного размера. Вычисляется статистическая сводка выборки и после этого рисуется специально отформатированный прямоугольник. Алгоритм, используемый при вычислении новых значений для графиков, определяется параметром stat, сокращенно от «статистическое преобразование». В примере ниже показано, как это работает с geom_bar. Вы можете узнать, какое статистическое преобразование использует та или иная функция, проверив значение по умолчанию аргумента stat. Например, в документации по функции ?geom_bar сказано, что её значение по умолчанию для аргумента stat это count, то есть geom_bar использует функцию stat_count, описанную на той же странице, что и geom_bar, и если прокрутить вниз, то можно найти раздел «вычисляемые переменные», в котором сказано, что вычисляются две новые вспомогательные переменные: count и prop.

Как правило, префиксы geom_ и stat_ взаимозаменяемы. Например, можно запустить предыдущий пример с использованием stat_count вместо geom_bar. Это работает, потому что каждая функция категории geom_ имеет параметр stat по умолчанию, а каждая функция категории stat_ имеет двойственный параметр geom по умолчанию. Это означает, что можно используйте функции построения графиков, не беспокоясь о лежащих в их основе статистических преобразованиях данных. Есть три причины, по которым может потребоваться использовать параметр stat в явном виде:

1) Возможно, захотите переопределить используемое по умолчанию статистическое преобразование. В коде ниже, заменено значение аргумента stat в geom_bar с count (принятого по умолчанию) на identity. Это позволяет сопоставить высоту баров с необработанным значением переменной. Когда говорят о столбцевой диаграмме, можно иметь ввиду такой тип гистограммы, в котором высота столбика уже присутствует в данных, либо предыдущую диаграмму, на которой высота генерируется с помощью подсчет строк.

< image l:href="#"/>

Историческая справка.

Как известно, из всех систем оценивания знаний в России поныне жива 5-балльная, которая была в 1837 году официально установлена Министерством народного просвещения. Положим, что продемонстрированные воспитанницами на одном из уроков математики в Серпуховской женской гимназии результаты были занесены в следующую демонстрационную таблицу.

library(tidyverse)

demo <– tribble( ~оценка, ~количество,

"слабо", 1,

"посредственно", 1,

"достаточно", 3,

"хорошо", 2,

"отлично", 3 )

ggplot(data = demo) +

geom_bar(mapping = aes(x =

оценка, y = количество), stat = "identity")

Не волнуйтесь, что не видели <– tribble раньше. Из контекста понятно назначение этих операторов, но что именно они делают в общем случае, будет подробно рассказано чуть позже.

2) Возможно, потребуется переопределить сопоставление по умолчанию от трансформированных переменных. Например, можете чтобы отобразить линейчатую диаграмму частот, а не количества:

library(tidyverse)

demo <– tribble( ~оценка, "слабо", "посредственно",

"достаточно", "достаточно", "достаточно",

"хорошо", "хорошо",

"отлично", "отлично", "отлично" )

ggplot (data = demo) +

geom_bar (mapping = aes (x = оценка, y = stat (prop), group = 1))

Чтобы найти полный список переменных, вычисляемых в статистике, достаточно заглянуть в раздел справки, озаглавленный как «вычисляемые переменные».

3) Возможно, захотите извлечь больше статистической информации в вашем коде. Например, если использовать функцию stat_summary, то будет получена дополнительная описательная статистика, которую можно показать на диаграмме. Следующий фрагмент кода выберет из тестовой базы успеваемость обучающихся в 7а или 7б классах по теме 2, найдет наименьшую оценку в каждом классе, наибольшую и медианное значение. После этого найденные статистики будут отображены на диаграмме соответствующими линиями:

ggplot(data = My_table[My_table$Класс == "7а" | My_table$Класс == "7б",]) +

stat_summary(

mapping = aes(x = Класс, y = Тема2),

fun.ymin = min,

fun.ymax = max,

fun.y = median

)

На данном этапе развития проекта, пакет ggplot2 предоставляет пользователям более 20 статистик. Каждое значение параметра stat является функцией, поэтому получить справку по ним можно обычным способом, например, введя ?stat_bin в консоли.

Упражнения

1. Что такое geom по умолчанию, связанный с stat_summary? Как переписать код из примеров, чтобы использовать функцию начинающуюся с geom_ вместо stat_?

2. Что делает функция geom_col? Чем она отличается от geom_bar?

3. Большинство значений параметров geom и stat парные, и почти всегда используется вместе. Ознакомьтесь с документацией и составьте список всех пар, что у них общего?

4. Какие вспомогательные переменные вычисляет функция stat_smooth? Какие параметры контролируют её поведение?

5. В диаграмме частот из примера установлено значение group = 1. Зачем? Другими словами, что будет нарисовано без указания этого параметра?

1-3 4 5 6 7 8 9 10 11 12 13 14 15-20

Бастард Императора

Орлов Андрей Юрьевич

1. Бастард Императора

Фантастика:

фэнтези

аниме

5.00

рейтинг книги

На границе империй. Том 10. Часть 1

INDIGO

Вселенная EVE Online

Фантастика:

космическая фантастика

попаданцы

5.00

рейтинг книги

Имя нам Легион. Том 7

Дорничев Дмитрий

7. Меж двух миров

Фантастика:

боевая фантастика

рпг

аниме

5.00

рейтинг книги

Измена. Вторая жена мужа

Караева Алсу

Любовные романы:

современные любовные романы

5.00

рейтинг книги

Буря империи

Сай Ярослав

6. Медорфенов

Фантастика:

аниме

фэнтези

фантастика: прочее

эпическая фантастика

5.00

рейтинг книги

Пенсия для морского дьявола

Чиркунов Игорь

1. Первый в касте бездны

Фантастика:

попаданцы

5.29

рейтинг книги

Фантастика:

городское фэнтези

попаданцы

авторы

Жанры

Деловая литература

Детективы

Детские

Документальная литература

Дом и Семья

Драматургия

Жанр не определен

Компьютеры и Интернет

Любовные романы

Научно-образовательная

Поэзия

Приключения

Проза

Прочее

Религия и эзотерика

Справочная литература

Старинная литература

Техника

Фантастика

Фольклор

Юмор

Основы статистической обработки педагогической информации

Соломатин Денис

Шрифт:

Бастард Императора

1. Бастард Императора

Фантастика:

фэнтези

аниме

рейтинг книги

На границе империй. Том 10. Часть 1

Вселенная EVE Online

Фантастика:

космическая фантастика

попаданцы

рейтинг книги

Имя нам Легион. Том 7

7. Меж двух миров

Фантастика:

боевая фантастика

рпг

аниме

рейтинг книги

Измена. Вторая жена мужа

Любовные романы:

современные любовные романы

рейтинг книги

Буря империи

6. Медорфенов

Фантастика:

аниме

фэнтези

фантастика: прочее

эпическая фантастика

рейтинг книги

Пенсия для морского дьявола

1. Первый в касте бездны

Фантастика:

попаданцы

рейтинг книги

На изломе чувств

Любовные романы:

современные любовные романы

рейтинг книги

Тринадцатый II

2. Видящий смерть

Фантастика:

фэнтези

попаданцы

аниме

рейтинг книги

Сирота

1. Светлая Тьма

Фантастика:

юмористическое фэнтези

городское фэнтези