Цели обучения
В теме представлено описание нескольких программных инструментов визуализации и анализа данных. Цель темы — показать область применения каждого из рассматриваемых инструментов и научить слушателей интерпретировать результаты. Приведены практические примеры, на которых слушатели должны освоить практические аспекты использования программных инструментов количественного анализа.
Мы живем в век информации. С помощью компьютера и глобальной сети достаточно просто получить доступ информации о различных объектах — организациях, и отдельных людях. В бизнесе вообще информация начинает играть ключевую роль: без четкого понимания своего места в рынке, потребностей клиентов, действий конкурентов и много другого невозможно построить эффективную организацию.
Однако чем больше собирается информации, тем становится сложнее увидеть в ней сходу тенденции и закономерности, скрытые от поверхностного взгляда, чтобы принять на ее основе какое либо управленческое решение. Отсюда можно сделать вывод, что сегодня руководителю, мало иметь возможность, собрать большие массивы рабочих данных, необходимо владеть определенными навыками работы с ними, при помощи которых их можно перевести в достаточно наглядную форму для принятия управленческого решения. Для этого существуют специальные методы работы с информацией — количественные методы. Они позволяют пользователю информации принимать обоснованные решения, основываясь на логике.
Ранее до появления современных мощных компьютеров, практическое применение количественных (статистических) методов было достаточно сложным, требующим больших интеллектуальных усилий и временных затрат, делом.
Теперь благодаря развитию современных технологий и программных приложений открылись пути, максимально сокращающие рутинные процедуры. Если раньше каждый шаг исследований, начиная от представления данных, перевода их в нужный формат, проверки, группировки, сортировки, сжатия, графической интерпретации, подготовки программ обработки, задания параметров анализа, просмотра результатов, был трудной задачей, то теперь достаточно двух-трех щелчков компьютерной мыши, чтобы огромные объемы данных чрезвычайно быстро преобразовались, обработались и появились на экране в виде графиков, диаграмм и таблиц.
Количественные методы становятся с каждым годом все более необходимым и незаменимым инструментом, и позволяют снизить вероятность ошибки при анализе различных массивов статистической информации. Как использовать достижения технического прогресса в бизнесе? Одним из ответов, несомненно, является организация бизнеса на основе информационных технологий. Эта точка зрения полностью соответствует мнению современных аналитиков, что ключевая концепция нынешнего тысячелетия — скорость. Мы уже лет тридцать живем в информационную эру, однако далеко не все компании продвинулись по пути освоения информационных технологий.
Электронные инструменты позволяют получать данные оперативно, аккумулируя их из разных источников (хранилище данных), и обеспечивают возможность их разностороннего анализа. Программные инструменты позволяют превращать пассивные данные в активную информацию.
Основа всех изменений поразительно проста — это поток цифровой информации. Почти никто в бизнесе не обращается с информацией так, как она того заслуживает. До сих пор многие высшие руководители компаний считают, что отсутствие своевременной информации — это данность. И это, не смотря на то, что сегодня, в XXI в., мы располагаем новыми программными средствами и средствами доступа, обеспечивающими получение информации, коллективную работу с ней и принятие решений на ее основе.
Что дает внедрение информационных технологий и аналитических систем количественного анализа данных:
при хорошо организованных информационных потоках намного легче организовать бизнес-процессы;
обеспечивает быструю адаптацию в условиях постоянно изменяющейся среды;
позволяет изучать данные о сбыте в оперативном режиме — так легче обнаруживать закономерности и обеспечивать к каждому клиенту индивидуальный подход;
позволяет применять для анализа бизнеса ПК и тем самым избавлять своих интеллектуальных работников от рутины.
Как отмечал Билл Гейтс в книге «Бизнес со скоростью мысли» «успеха в ближайшем десятилетии добьются те компании, которые сумеют реорганизовать свою работу с помощью электронного инструментария. Самый надежный способ выделить свою компанию среди конкурентов — это хорошо организовать работу с информацией.
Разработанная в компании аналитическая система позволяет:
постоянно оценивать ситуацию заново;
знать фактические данные о своем бизнесе и осмысленно учитывать все мелкие детали его ведения;
конкретному дилеру оценить собственную эффективность, и сопоставить ее со средними показателями;
реализовать принцип управления на основе фактов — один из основополагающих принципов ведения бизнеса;
использовать компьютеры не только для вычислительных задач, но и для моделирования проблем бизнеса;
открывает менеджерам среднего звена и рядовым сотрудникам доступ к данным;
расширить аналитические способности сотрудников компании;
обеспечить простой доступ к данным, так как иначе невозможно просто выдвигать и проверять различные гипотезы;
использовать удобные инструменты, позволяющие произвольно комбинировать данные из различных источников.
Именно менеджеры среднего звена любой компании должны хорошо понимать, какие сферы их деятельности приносят прибыль, а какие — убытки, какие маркетинговые программы работают, а какие нет, какие расходы себя оправдывают, а какие делаются впустую. Это как раз те люди, которым нужны точные, побуждающие к действиям данные, поскольку действовать — их прямая обязанность. Политика доступа к информации должна быть максимально открытой.
Людей воодушевляет использование технологий, позволяющих им исследовать различные теории о том, что происходит на рынках, за которые они отвечают. Им доставляет удовольствие прогон сценариев «что, если». Люди высоко ценят информацию, так, что она является мощным стимулятором.
Если выразить кратко суть аналитической системы анализа данных, то можно сказать, что электронные инструменты позволяют получать данные оперативно, аккумулируя их из разных источников (хранилище данных), и обеспечивают возможность их разностороннего анализа. Программные инструменты позволяют превращать пассивные данные в активную информацию. Коэффициент интеллекта компании определяется тем, насколько хорошо ее ИТ-инфраструктура обеспечивает доступ к информации, ее совместное использование и структурирование.
Извлечение данных из рабочих процессов и использование их для решения содержательных задач остается одной из самых трудноразрешимых проблем бизнеса. Слишком часто важную информацию о клиентах и продажах сводят воедино только в специальных случаях — когда в компанию приглашаются консультанты. Одна из целей проекта внедрения системы — дать возможность менеджерам компании, приходя каждый день на работу, видеть самые свежие данные и анализировать их самыми разнообразными способами.
Хорошо налаженные информационные потоки и мощные аналитические инструменты позволяют обнаружить совершенно неожиданные возможности увеличения оборота, извлекая их из огромной массы сырых данных, которые в отсутствие описанной выше системы были бы абсолютно бесполезны.
Приведем пример, основанный на реальных данных. 28 января 1986 г. стартовал американский космический корабль многоразового использования «Челенджер». Спустя несколько минут после взлета корабль взорвался, погибли семь членов экипажа. Причиной аварии, как потом установили эксперты, был выход из строя одного из так называемых О-колец. Аналогичные повреждения происходили и во время предварительных испытаний.
Представим себе, что мы анализируем информацию о сбоях в О-кольцах, полученную во время предварительных испытаний. А, именно, мы пытаемся выяснить, нет ли связи между количеством дефектов (центры эрозии), возникающих в О-кольцах и температурой воздуха. Вполне логичным на первый взгляд было бы запросить соответствующую информацию обо всех полетах, в которых фиксировались сбои. Соответствующие данные приведены в файле ЧЕЛЕНДЖЕР.XLS (шаблон и решение
). А соответствующая диаграмма рассеивания представлена на рис. 1
.
Визуальный анализ диаграммы приводит нас к выводу об отсутствии явной зависимости между количеством возникающих дефектов в О-кольцах и температурой воздуха. Это же подтверждает выборочный коэффициент корреляции, практически равный 0 (0,024).
Рассмотрим однако вопрос о той же зависимости, но уже на данных о всех предварительных полетах, то есть и о тех, в которых не фиксировалось наличие каких-либо дефектов в О-кольцах. Соответствующие данные также приведены в файле ЧЕЛЕНДЖЕР.XLS (шаблон и решение
), а соответствующая диаграмма рассеивания построена на рис. 2
.
Однако теперь вопрос о зависимости температуры и количестве сбоев представляется совершенно по-иному. Просматривается весьма ощутимая отрицательная зависимость, что подтверждается соответствующим значением выборочного коэффициента корреляции (-0,511).
Этот пример показывает, насколько важным может оказаться правильный выбор способа представления и анализа информации. Даже первичная обработка данных о предыдущих запусках путем построения нужной диаграммы рассеивания могла бы дать предостерегающую информацию.
Цель данного раздела — научиться извлекать из данных первоначальную, полезную информацию путем вычисления определенных характеристик, построения сводных таблиц, графиков и диаграмм. Еще раз подчеркнем, что речь идет о быстром извлечении первоначальной информации, а, следовательно, мы рассматриваем наиболее простые, однако весьма полезные на практике программные инструменты. Следует также отметить, что основное внимание следует уделить основной идее каждого инструмента и интерпретации результатов, поскольку данные инструменты анализа данных допускают различные программные реализации.
Методы описания данных начнем с построения таблиц частот и их графического аналога — гистограмм
(столбчатых диаграмм). Какую задачу решает данный инструмент количественного анализа данных?
В качестве исходных данных мы имеем некоторую числовую выборку. Возникает желание понять, как устроена данная совокупность, то есть понять, как распределены значения данной совокупности по величине. Естественным шагом в этом направлении, по-видимому, могло бы быть отображение всех значений совокупности на числовой оси. Однако даже при сравнительно небольших размерах выборки такой рисунок был бы, по-видимому, трудно воспринимаем визуально из-за слияния точек. Тогда возникает идея некоторого агрегирования. Не будем отображать положение каждой точки. Вместо этого числовую ось разобьем на некоторое количество диапазонов (категорий) равной длины, дополнив их двумя бесконечными диапазонами (слева и справа от конечных диапазонов). Далее подсчитаем количество значений совокупности, которые попадают в тот или иной диапазон. Результаты подсчетов запишем в некоторую таблицу, которую назовем таблицей частот.
Таким образом, таблица частот показывает, сколько объектов попадает в ту или иную категорию. Гистограмма отображает эту же информацию графически: высота каждого столбца, соответствующего каждой категории, пропорциональна количеству точек в данной категории.
Чем выше высота столбца, тем больше точек попало в соответствующий диапазон. Поскольку диапазоны имеют равные длины, то можно сказать и так: чем выше столбец, тем больше плотность точек в соответствующем диапазоне. Таким образом, можно интерпретировать рельеф, задаваемый столбцами, как рельеф, отображающий распределение плотности попадания значений выборки на числовой оси.
Пример
Файл АКТЕРЫ.XLS (шаблон и решение
) содержит информацию о 66 кинозвездах Голливуда, а именно имя каждого актера или актрисы и значения следующих четырех переменных:
пол — мужчина или женщина;
отечественные сборы — средние сборы по нескольким последним фильмам с участием данного актера (млн дол.);
зарубежные сборы — средние сборы за рубежом по нескольким последним фильмам с участием данного актера (млн дол.);
гонорар — сумма, которую в настоящее время запрашивает актер за съемку (млн дол.).
Нас интересует формирование таблицы распределения частот и построение гистограммы по величине запрашиваемых гонораров.
Решение
Для того чтобы получить распределение частот по какой-нибудь непрерывной переменной, например, гонорар, необходимо сначала определить параметры гистограммы. Основных параметров три — количество диапазонов, ширина диапазона и точка, откуда начинаются диапазоны (точка привязки). Нет четких правил для определения значений данных параметров. Однако есть некоторые разумные соображения, которыми можно руководствоваться. Например, с одной стороны, мы хотим иметь достаточное количество категорий, для того чтобы просматривалось распределение, с другой, мы не хотим, чтобы категории содержали всего несколько наблюдений. Как правило, выбирают 10—15 категорий. В данном случае определим категории: «не более 2», 2—4, 4—6, 6—8, 8—10, 10—12, 12—14, 14—16, 16—18, 18—20, «более 20» — всего 11 категорий.
Для решения используем надстройку статистического анализа StatPro. В данной конкретной программной реализации категории включают свои правые границы и не включают левые. Основные шаги построения гистограммы следующие:
поместить курсор куда-нибудь в поле данных;
выбрать StatPro/Charts/Histogram;
в списке отображаемых числовых переменных выбрать нужную переменную. В данном случае гонорар;
ввести имя новой страницы для размещения гистограммы;
в диалоговом окне ввести необходимые для построения гистограммы параметры, например (2, 11, 2); 2 — правая граница первого интервала (или левая граница первого конечного интервала); 11 — обще количество интервалов; 2 — ширина интервалов. В этом случае программа рассмотрит 9 конечных интервалов длины 2 и два бесконечных — «все значения не большие, чем 2» и «все значения большие, чем 20»;
проанализировать построенную гистограмму и таблицу частот.
Замечание. Таблица частот формируется в скрытом режиме, для ее просмотра необходимо выполнить следующие шаги: Формат — Лист — Отобразить. В этом случае появляется список скрытых листов. Таблица частот дает точное количество объектов, соответствующих каждой конкретной категории.
Ниже приведены таблица распределения частот (табл. 1) и гистограмма (рис. 3 ) для значений переменной Гонорары.
Таблица 1.
Таблица частот для гонораров
Верхний предел |
Категория |
Частота |
|
Верхний предел |
Категория |
Частота |
2 |
≤2 |
2 |
|
12 |
10—12 |
3 |
4 |
2—4 |
15 |
|
14 |
12—14 |
3 |
6 |
4—6 |
11 |
|
16 |
14—16 |
2 |
8 |
6—8 |
12 |
|
18 |
16—18 |
3 |
В случае если требуется анализ распределения по другим категориям, то процедура легко повторяется с другими значениями параметров.
Существует еще два альтернативных способа построения таблиц частот в среде Excel:
через специальную статистическую функцию ЧАСТОТА(), которая подсчитывает количество элементов массива, попадающих в различные диапазоны (карманы). Однако в данном случае, во-первых, необходимо самостоятельно вводить список границ диапазонов, а во вторых, отдельно использовать Мастер диаграмм для построения гистограммы;
через Сервис/Анализ данных/Гистограмма. В этом случае массив карманов также должен быть подготовлен предварительно.
Таким образом, оба эти способа являются менее удобными, чем возможности StatPro. Однако с другой стороны они допускают возможность задавать произвольные системы карманов, что в отдельных случаях может быть полезным.
Замечание. Полученные таблицы частот и соответственно, построенные на них гистограммы имеют динамическую связь с исходными данными (как в Excel, так и в StatPro), то есть при изменении исходных данных таблица частот и гистограмма меняются. Данное свойство имеет принципиально важное значение, так как в противном случае необходимо хранить всю предысторию применения данного инструмента и при изменении данных, следуя ей, еще раз применять инструмент к измененным данным.
Формы гистограмм
Далее рассмотрим несколько примеров, в которых гистограммы принимают различные формы. В каждом из этих примеров наиболее важным является не техническое воспроизведение данной гистограммы, а ее содержательная интерпретация.
Гистограммы данного типа имеют один пик и примерно одинаковое расположение столбцов слева и справа от пика. Чаще всего это столбцы уменьшающейся высоты по мере их удаления от центра. Как мы увидим в части 2 такие гистограммы, например, соответствуют выборкам случайных величин, имеющих нормальное распределение.
Пример
В файле ИЗМЕРЕНИЯ_1.XLS (шаблон и решение
) представлены результаты измерений диаметров 400 лифтовых рельсов. Результаты оказались от 449 до 548 (в сотых долях см). Проверьте, что распределение диаметров удовлетворяет симметричному закону.
Решение
Разбиваем данные на категории «не более 455», «455— 65» и так далее до категории «более 545». Результат построения гистограммы представлен на рис. 4 .
Гистограммы со скосом направо (положительный скос)
Гистограммы данного типа имеют пик, и значения рассматриваемой переменной распространяются вправо от пика намного дальше, чем влево.
Пример
В файле ПОЧТА.XLS (шаблон и решение
) представлены интервалы между моментами прихода клиентов на почту в течение одного дня (в секундах). Имеет ли распределение этих данных положительный скос?
Решение
Разбиваем данные на категории: «не более 25», «25—50» и так далее до категории «более 275». Результат представлен на рис. 5 .
Гистограммы со скосом влево (отрицательный скос)
Гистограммы данного типа имеют пик, и значения рассматриваемой переменной распространяются влево от пика намного дальше, чем вправо.
Пример
В файле ОЦЕНКИ.XLS (шаблон и решение
) приведены результаты промежуточной оценки группы студентов по 100 бальной системе. Имеет распределение этих данных отрицательный скос?
Решение
Разбиваем данные на категории «не более 45», «45—50», и так далее до категории «более 95». Результат представлен на рис. 6 .
Гистограммы с несколькими пиками
Гистограммы данного типа часто возникают, когда данные объединяют в себе выборки из различных генеральных совокупностей. Например, это могут быть данные, относящиеся к мужчинам и женщинам, или результаты опросов, проведенных в разных регионах. Гистограммы, содержащие два пика, называют бимодульными.
Пример
В файле ИЗМЕРЕНИЯ_2.XLS (шаблон и решение
) имеются данные о диаметрах всех лифтовых рельсов, произведенных на заводе в течение дня. Работа проводилась на двух станках. Какова гистограмма приведенных данных?
Решение
Результат построения гистограммы с параметрами (4950, 25, 50) приведен на рис. 7 . Видно, что распределение по каждому из станков близко к симметричному распределению.
Полученное распределение можно отнести к бимодульным.
Удобнее построить гистограммы для каждого из станков по отдельности, уменьшив при этом ширину диапазона гистограммы, то есть, уточнив гистограмму (рис. 8 — параметры (4900, 11, 25) и рис. 9
— параметры (5900, 11, 25)).
Часто интерес представляет вопрос о наличии взаимосвязи между двумя величинами. В этом случае целесообразно их значения интерпретировать как координаты, что позволяет изобразить некоторую совокупность точек на координатной плоскости. Эта совокупность и называется диаграммой рассеивания. Анализируя расположение точек совокупности, можно сделать вывод о наличии (или отсутствии) взаимосвязи между величинами, а также о силе и характере этой зависимости. Кроме того, представление данных двух выборок в виде диаграммы рассеивания может выявить некоторые взаимосвязи (или их отсутствие) в отдельных подмножествах данных выборок.
Пример
Обратимся вновь к файлу АКТЕРЫ.XLS (шаблон и решения
). Мы подозреваем, что звезды, чьи фильмы делают хорошие кассовые сборы, запрашивают большие гонорары. Подтверждают ли это приведенные данные?
Решение
Построим диаграмму рассеивания с помощью надстройки StatPro. Для этого используем путь StatPro/Charts/Scatterplot. Выберем Гонорары в качестве переменной Y, а Отечественные сборы в качестве переменной X. Диаграмма изображена на рис. 10 .
Из диаграммы видно, что точки, находящиеся правее, как правило, находятся и выше. Это и подтверждает сделанное нами предположение.
Обратите внимание на коэффициент корреляции равный 0,61 (в правом верхнем углу диаграммы), указывающий на наличие некоторой положительной линейной зависимости между переменными, что также подтверждает сделанное нами предположение. Подробнее о коэффициенте корреляции см. в разделе 2. Пока лишь отметим, что близость этого коэффициента к 0 означает отсутствие взаимозависимости между выборками.
Альтернативный способ построения диаграммы рассеивания основывается на встроенных средствах Excel, а именно, если в Мастере диаграмм выбрать тип Точечная.
Диаграммы рассеивания позволяют также визуализировать тип зависимости, в частности нелинейной, как, например, в следующем примере.
Пример
Допустим, нас интересует зависимость между продуктивностью продаж и количеством лет, которые торговый агент проработал на данной территории. Соответствующие данные приведены в файле ПРОДАЖИ.XLS (шаблон и решение
) (табл. 2). Какова зависимость между объемами продажам и стажем работающего?
Таблица 2.
Результаты продаж и стаж работы
Стаж |
Продажи (тыс. дол.) |
|
Стаж |
Продажи (тыс. дол.) |
24 |
54 |
|
10 |
60 |
8 |
57 |
|
11 |
60 |
2 |
45 |
|
16 |
62 |
12 |
61 |
|
14 |
62 |
8 |
57 |
|
10 |
60 |
4 |
50 |
|
18 |
61 |
6 |
54 |
|
22 |
57 |
6 |
54 |
|
20 |
60 |
11 |
60 |
|
|
|
Анализируя расположение точек совокупности, можно сделать вывод о наличии (или отсутствии) взаимосвязи между величинами, а также о силе и характере этой зависимости. Кроме того, представление данных двух выборок в виде диаграммы рассеивания может выявить некоторые взаимосвязи (или их отсутствие) в отдельных подмножествах данных выборок.
Решение
Используя надстройку StatPro, построим диаграмму рассеивания (рис. 11 ).
Достаточно четко просматривается нелинейный характер зависимости между переменными. После 14 лет работы результаты торгового агента ухудшаются. О том, как конкретно построить и оценить нелинейные зависимости рассказано в дисциплине «Моделирование и количественный анализ в менеджменте»
Временные ряды часто возникают в задачах прогнозирования. Временной ряд можно рассматривать, как частный случай диаграммы рассеивания, если в качестве переменной по оси X выбрать время, например дни, недели, годы и так далее. Два типичных вопроса, которые ставятся при анализе временных рядов:
наблюдается ли какая-либо устойчивая зависимость от времени в поведении рассматриваемой величины (временной тренд)?
наблюдается ли сезонная компонента?
Пример
В файле ПОДАРКИ.XLS (шаблон и решение
) приведены данные магазина «Подарки» о доходах от продаж поквартально за период 1992—1995. Изобразите эти данные в виде графического временного ряда и ответьте на вопросы поставленные выше.
Решение
Для построения временного ряда используем StatPro/Charts/Time Series Plot. Построим временной ряд для единственной переменной Доход (рис. 12 ).
На полученном графике просматривается явная сезонная зависимость (предновогодний всплеск покупок подарков в четвертом квартале) и растущий тренд, то есть растущий от года в год доход магазина.
Следует заметить, что в реальных данных, как правило, тренд и сезонные компоненты не просматриваются столь явно. Их выявление является весьма сложной математической задачей. О некоторых методах ее решения (регрессионный анализ, фиктивные переменные) будет рассказано дисциплине «Моделирование и количественный анализ в менеджменте».
Часто возникает необходимость рассмотреть поведение во времени двух величин на одном графике, например, с целью выявления каких-либо закономерностей в их поведении. Средства StatPro позволяют это сделать. Однако, если эти величины имеют существенно отличающиеся масштабы измерений, то просмотр их временных рядов на одном графике может оказаться затруднительным. В этом случае средства StatPro позволяют реализовывать два различных масштаба (подбираются автоматически) на одной вертикальной оси.
Пример
Рассмотрим компанию, которая реализует два вида продукции. Продукт 1 дает существенно большие доходы, чем продукт 2 (см. файл ДВА ПРОДУКТА.XLS (шаблон и решение
)). Доходы от реализации продукта 1 составляют порядка 100 000 руб., а продукта 2 — около 5000 руб. ежемесячно. Как отобразить временное изменение этих доходов на одном графике сопоставимым образом?
Решение
Первоначально изобразим временные ряды доходов по обоим продуктам в едином масштабе. Результаты изображены на рис. 13 .
Как мы видим, подобное изображение не обладает достаточной наглядностью для анализа.
Построим теперь временные ряды доходов от реализации обоих продуктов, пользуясь упомянутыми выше средствами реализации двух различных масштабов на одном графике. Для этого не будем указывать требования единой шкалы измерений для обоих продуктов. Результаты изображены на рис. 14 .
Левая вертикальная шкала соответствует доходам от реализации продукта 1, а правая — продукта 2. К сожалению, для случая более двух величин данная возможность представления не применима.
Таким образом, данный инструмент позволяет быстро производить визуализацию динамики одного или нескольких процессов.
Сводные таблицы являются одним из самых мощных и удобных средств Excel. Образно говоря, они позволяют резать данные «вдоль и поперек».
Задумаемся, в чем состоит построение любой таблицы. Сначала мы определяем содержание строк таблицы, или чему соответствует (каким объектам) каждая строка. Далее аналогичным образом мы определяемся со столбцами, определяя, чему соответствуют (каким объектам) столбцы. После этого структура таблицы определена. Каждой ячейке (пересечение некоторой строки и столбца) соответствуют некоторые объекты, а именно объекты, удовлетворяющие одновременно заявленному содержанию строки и столбца. Далее мы определяем, какая информация (какое поле исходных данных) об этих объектах нам интересна. Последнее, с чем необходимо определиться — это какое конкретное числовое значение будет отображать в таблице интересующую нас информацию о группе объектов (среднее значение, сумма, количество значений, доля и так далее).
Инструмент сводных таблиц удобным образом реализует логику конструирования таблиц, приведенную выше.
Следует отметить, что инструмент прост в освоении и открывает удобные возможности для творчества в анализе данных.
Пример
Обратимся вновь к файлу АКТЕРЫ.XLS (шаблон и решение
). Женщины-актрисы утверждают, что им платят меньше, чем мужчинам. Подтверждается ли это приведенными данными?
Решение
Приведем ниже один из вариантов количественного анализа. Сначала найдем количество мужчин и женщин в нашей совокупности. Это можно сделать различными способами, однако мы воспользуемся инструментом Сводная таблица. Выполним следующее:
поместим курсор в область данных;
выберем Данные/Сводная таблица. Это выводит нас на Мастер сводных таблиц;
нажмем Далее;
определим области данных: если курсор первоначально находился в области данных, то область определяется программой автоматически; в противном случае она задается обычным выделением;
определим переменные (список формируется автоматически), которые будут соответствовать 4 полям основной таблицы Мастера сводных таблиц, а именно: Поля строк, Поля столбцов, Элементы данных, Поля страниц. Переменные перетаскиваются курсором (удерживая левую клавишу мыши) из списка в соответствующие поля основной таблицы. Аналогично с помощью мыши они могут быть и удалены из своих полей размещения. Переменную Пол перетащим в область Поля столбцов и в область Элементы данных. Области Поля столбцов и Поля страниц оставим незаполненными;
определим место размещение результата — новая страница, или область на текущей странице. В результате получим следующую сводную таблицу (табл. 3).
Таблица 3.
Сводная таблица по количеству мужчин и женщин
Количество значений по полю Пол |
|
Пол |
Всего |
M |
48 |
Ж |
18 |
Общий итог |
66 |
Далее выразим процентное соотношение категорий с отображением его в виде круговой диаграммы. Для этого воспользуемся тем, что данные сводной таблицы могут быть представлены различными способами. Щелкнув дважды на переменной, размещенной в области Элементы данных, мы вызовем диалоговое окно Вычисление поля сводных таблиц, позволяющее выбрать формат представления данных, в частности в нашем случае (рис. 15 ).
Проследовав по опциям Дополнительно — Дополнительные вычисления — Доля от суммы по столбцам, мы получим следующую сводную таблицу (табл. 4). Соответствующая ей диаграмма строится через Мастер построения диаграмм путем выбора типа Круговая (рис. 16 ).
Таблица 4.
Сводная таблицапо количеству мужчин и женщин
Кол-во значений по полю Пол |
|
Пол |
Всего |
M |
72,73% |
Ж |
27,27% |
Общий итог |
100,00% |
Исследуем далее распределение гонораров отдельно среди мужчин и женщин. Для этого совершим следующие действия:
1) поместим курсор куда-либо в область данных;
2) вызовем Мастер сводных таблиц (Данные/Сводная таблица) и пройдем два шага его работы, нажимая Далее;
3) поместим переменную Гонорары в область Поля строк, переменную Пол в область Поля столбцов, переменную Пол в область Элементы данных. (Когда в область данных помещается переменная типа категория, то подсчитывается количество);
4) нажмем Готово.
Полученная сводная таблица приведена ниже (табл. 5). Как мы видим, в ней собрана информация по всем возможным значениям гонораров. Как уже видно из этой таблицы, гонорары мужчин в целом превосходят гонорары женщин.
Таблица 5.
Распределение мужчин и женщин по значениям гонораров
Кол-во значений по полю Пол |
Пол |
|
|
Гонорар |
M |
Ж |
Общий итог |
2 |
1 |
1 |
2 |
2,5 |
1 |
4 |
5 |
3 |
2 |
2 |
4 |
3,5 |
1 |
|
1 |
4 |
3 |
2 |
5 |
4,5 |
1 |
1 |
2 |
5,2 |
1 |
|
1 |
5,5 |
3 |
|
3 |
6 |
4 |
1 |
5 |
7 |
4 |
|
4 |
7,5 |
5 |
|
5 |
8 |
3 |
|
3 |
8,5 |
|
1 |
1 |
9 |
|
1 |
1 |
10 |
5 |
2 |
7 |
11 |
|
1 |
1 |
12 |
|
2 |
2 |
12,5 |
1 |
|
1 |
13 |
2 |
|
2 |
15 |
2 |
|
2 |
16,5 |
1 |
|
1 |
17,5 |
1 |
|
1 |
18 |
1 |
|
1 |
19 |
1 |
|
1 |
19,8 |
1 |
|
1 |
20 |
4 |
|
4 |
Общий итог |
48 |
18 |
66 |
Однако информация, собранная в сводной таблице представляется излишне детализированной. Представьте себе, например, вид этой таблицы, если у всех актеров разные гонорары. Мастер сводных таблиц позволяет группировать данные. Для этого сделаем следующее:
1) щелкнем мышкой где-нибудь в столбце Гонорары полученной таблицы;
2) на панели инструментов Мастера сводных таблиц вызовем правую стрелку (группировка), левая стрелка представляет обратную операцию (разгруппировка). Если панель Мастера сводных таблиц отсутствует, то воспользуйтесь опциями Вид / Панели инструментов / Сводные таблицы. В более поздних версиях Excel аналогичный результат получается использованием опций Данные / Группа и структура / Группирование…
3) диалоговое окно предлагает свои параметры группировки, автоматически определяя минимальное и максимальное значение. Внеся свои коррективы в размер шага, поставим 3 (рис. 17 ).
Полученная сгруппированная сводная таблица приведена ниже.
Таблица 6.
Сгруппированная сводная таблица по размерам гонораров
Кол-во значений по полю Пол |
Пол |
|
|
Гонорар |
M |
Ж |
Общий итог |
2—5 |
9 |
10 |
19 |
5—8 |
17 |
1 |
18 |
8—11 |
8 |
4 |
12 |
11—14 |
3 |
3 |
6 |
14—17 |
3 |
|
3 |
17—20 |
8 |
|
8 |
Общий итог |
48 |
18 |
66 |
Сводные таблицы позволяют быстро и гибко разбивать данные на определенные подмножества, группировать их по какой-либо из переменных, представлять полученные данные в различных форматах, а также выявлять определенные зависимости в данных, невидимые «невооруженным глазом».
Для большей информативности представим данные из полученной сводной таблицы в процентном формате. Это можно сделать через диалоговое окно Вычисление поля сводных таблиц (рис. 15). Процентное распределение мужчин и женщин по категориям гонораров представлено в твбл. 7.
Таблица 7.
Процентное распределение мужчин и женщин по категориям
Кол-во значений по полю Пол |
Пол |
|
|
Гонорар |
M |
Ж |
Общий итог |
2—5 |
18,75% |
55,56% |
28,79% |
5—8 |
35,42% |
5,56% |
27,27% |
8—11 |
16,67% |
22,22% |
18,18% |
11—14 |
6,25% |
16,67% |
9,09% |
14—17 |
6,25% |
0,00% |
4,55% |
17—20 |
16,67% |
0,00% |
12,12% |
Общий итог |
100,00% |
100,00% |
100,00% |
Используя возможности графического представления данных в Excel, изобразим распределение зарплат по категориям в виде столбчатых диаграмм, выбирая соответствующий тип диаграммы в Мастере построения диаграмм. Результат приведен на рис. 18 .
Как мы видим, больше половины женщин находится по своим гонорарам в низшей категории, в то время как, мужчин там находится только 19%. Кроме того, в двух наиболее оплачиваемых категориях женщин вообще нет.
Конечно, мы могли бы просто вычислить и сравнить средние значения гонораров у мужчин и у женщин, однако этот упрощенный подход анализа имеет недостатки (например, зависимость от отдельно сильно отклоняющегося значения при небольших выборках). Тем не менее, проведем общее сравнение средних гонораров для мужчин и женщин, используя соответствующую сводную таблицу. Для этого осуществим следующие процедуры:
1) вернемся в исходные данные и выйдем на Мастера сводных таблиц;
2) поместим переменную Пол в область Поля строк и переменную Гонорар в область Элементы данных. Так как переменная Гонорар числовая, то в качестве результата автоматически выводится «Сумма значений». Так как нас интересуют средние значения, требуется следующий шаг;
3) щелкнув дважды на опции «Сумма значений» в области Элементы данных, мы вызовем диалоговое окно Вычисление поля сводных таблиц, позволяющее выбрать формат представления данных, в частности в нашем случае «Среднее значение».
Результаты сводной таблицы и соответствующая столбчатая диаграмма представлены на рис. 19 .
Таким образом, проведенный нами анализ показал, что женщины получают меньшие гонорары, чем мужчины. Почему? Возможно, это происходит вовсе не из-за дискриминации по признаку пола, а, например, потому, что кассовые сборы от показа фильмов в США с их участием в главной роли приносят меньшие кассовые сборы. Как проверить это предположение, опираясь на имеющиеся у нас данные? Для этого поместим переменную Отечественные сборы в область Поля строк, переменную Пол в область Поля столбцов, а переменную Гонорар в область Элементы данных. В качестве формата данных выберем Среднее значение, а далее значения переменной Отечественные сборы сгруппируем с шагом 20 (рис. 20 ).
Результаты группировки приведены в табл. 8.
Таблица 8.
Средние гонорары мужчин и женщин по категориям
Среднее по полю Гонорар |
Пол |
|
|
Отечественные сборы |
M |
Ж |
Общий итог |
16—35 |
6,15 |
4,36 |
5,46 |
36—55 |
8,99 |
4,40 |
8,07 |
56—75 |
9,50 |
9,42 |
9,46 |
76—95 |
9,70 |
|
9,70 |
96—115 |
20,00 |
|
20,00 |
116—135 |
15,00 |
|
15,00 |
156—175 |
17,50 |
|
17,50 |
Общий итог |
9,48 |
6,06 |
8,55 |
Полученные данные дают веские основания предположить, что определенная дискриминация в отношении женщин в киноиндустрии США существует. Это следует из того, что, будучи в одних и тех же категориях по отечественным кассовым сборам, женщины и мужчины получают разные гонорары — средние гонорары женщин всегда меньше, чем мужчин.
Дополнительные замечания
Данные для сводных таблиц могут размещаться как в файлах Excel, так и во внешней базе данных Microsoft Access.
Существует еще одна область Поля страниц, которая позволяет просматривать (пролистывать) имеющуюся сводную таблицу по значениям переменной, размещенной в этом поле. То есть в сводную таблицу будут включены только те наблюдения, в которых переменная области Поля страниц будет иметь какое-либо конкретное выбранное значение. Меняя выбранные значения того поля, которое указано в области Поля страниц, мы получаем разные сводные таблицы, то есть, как бы листаем страницы книги.
Можно размещать несколько переменных в областях сводной таблицы (Поля строк, Поля столбцов, Элементы данных, Поля страниц), а также перемещать их из области в область, при этом результаты будут автоматически пересчитываться.
Если два раза щелкнуть мышью на каком-либо из результатов сводной таблицы, то можно увидеть те данные, из которых получен этот результат.
Сводная таблица поддерживает динамическую связь с данными, то есть при изменении исходных данных результаты сводной таблицы обновляются. Однако это происходит не автоматически, а по нажатию опции Обновить данные на панели инструментов мастера сводных таблиц.
Существует возможность визуализации содержания сводной таблицы в виде Сводной диаграммы.
Рассмотренные нами в данной теме инструменты Excel и надстройки для статистического анализа данных StatPro — гистограммы (диаграммы), диаграммы рассеивания, временные ряды, сводные таблицы и сводные диаграммы, являются очень удобными средствами для отображения и исследования данных.
Гистограммы позволяют быстро увидеть распределение значений величины. Диаграммы рассеивания
показывают, как соотносятся две величины, существует ли между ними или их подвыборками какая-либо зависимость и насколько она сильная.
Временные ряды показывают изменение величины во времени.
Сводные таблицы позволяют быстро и гибко разбивать данные на определенные подмножества, группировать их по какой-либо из переменных, представлять полученные данные в различных форматах, а также выявлять определенные зависимости в данных, невидимые «невооруженным глазом».
Сводные диаграммы визуализируют результаты анализа данных с помощью сводных таблиц.