Что касается масштаба (размерности) оси Y, разные авторы (Тафти, Кливленд) говорят о среднем угле наклона линейного графика в 45 градусов. Однако к этому стоит подходить с позиции здравого смысла и понимания самих данных. Возможны две крайности:
График слишком пологий для реального характера изменений, то есть в реальности изменения более значительны.
Перепады в графике излишне крутые за счет шкалы/размера, в реальности их можно оценить как весьма скромные.
Методом подбора нужно добиваться такой размерности линейного графика, которая позволит сохранить и передать субъективное ощущение от изменений.
Отдельно хочется отметить: если шкала обрезана, график не должен начинаться от крайней минимальной точки обрезанной шкалы. Идеальный вариант – оставить примерно 1/10 пустого пространства сверху и снизу графика. Это будет однозначно указывать на то, что график начинается не от ноля.
Если данные отсутствуют, что делать?
Если на какой-то момент числовое значение отсутствует, лучше обозначить это явным образом – пропустить в этом месте линию на графике.
Отсутствие значения не равно нолю, увести в этом месте линию в ноль – грубая ошибка. В таком случае график будет однозначно указывать на резкое снижение, а затем резкий подъем, что никак не соответствует реальности:
Вот как это можно сделать в Excel. Нажимаем на диаграмму, в верхнем меню программы выбираем: конструктор → выбрать данные → скрытые и пустые ячейки → показывать пустые ячейки как пустые значения:
Можно ли сделать из линейного графика площадной – закрасить его под линией? Можно ли обрезать шкалу в таком графике?
На практике подобный прием иногда используется в декоративных целях, например, в биржевых дэшбордах. Важно понимать: закрашенная площадь становится эквивалентна столбикам, где сама площадь начинает кодировать значения.
И в таком случае обрезать шкалу и удалять часть площади – значит просто удалять часть значений. Некоторые авторы категорически не рекомендуют этого делать.
Я тоже не одобряю использование этого приема. Если вы все же решили к нему прибегнуть, лучше делать это максимально деликатно: сделать заливку полупрозрачной, использовать градиент, уходящий темной частью вниз. Это даст понять, что визуализация построена не от нуля и не отражает общее количество.
Распределение
Графики, показывающие распределение, используют реже, чем стоило бы.
Гистограмма – классический способ показать распределение данных внутри одного ряда. Она демонстрирует, сколько значений переменной попадает в последовательные интервалы. Есть несколько основных правил использования гистограммы.
1) В большинстве ситуаций интервалы на порядковой шкале должны быть равными. Так распределение считывается наиболее наглядно:
Казалось бы, первый вариант показывает нормальное распределение. Однако это впечатление обманчиво: на самом деле гистограмма здесь смещена вправо.
2) Интервалы нельзя пропускать! Так теряется возможность наглядно увидеть выбросы значений:
Разница со столбиковой диаграммой
Гистограмма и столбиковая диаграмма – это ведь одно и то же? Нет, они принципиально отличаются, хотя и выглядят похоже.
Между столбиками в гистограмме обычно не оставляют пустого пространства, подчеркивая непрерывность интервалов. По оси X в гистограмме расположена количественная шкала (в виде последовательных интервалов), а в столбиковой диаграмме – категориальная. Причем этих интервалов обычно нет в изначальном датасете, они выбираются произвольно. Столбики в столбиковой диаграмме можно сортировать, например, от большего к меньшему, или по алфавиту. В гистограмме сортировать данные не получится, так как интервалы идут по порядку, от меньших значений к большим.
Кстати, гистограммы появились в стандартных диаграммах Excel в 2016 году.
Как выбирать интервалы?
Слишком маленькие интервалы показывают данные чрезмерно детализированно, затрудняя восприятие паттерна. Слишком большие интервалы чересчур обобщают, из-за чего теряются важные особенности характера распределения. Нет единого рецепта, нужно найти здоровый баланс между двумя крайностями.