Публикации NEWHR
Исследования

Насколько можно доверять результатам исследований

Представьте, что вы изучаете зарплатное исследование рынка. Вы хотите понять, можно ли на его основе делать выводы и принимать стратегические решения в бизнесе.
Давайте разберёмся:
  • Сколько респондентов должно быть в исследовании, чтобы ему можно было доверять
А ещё немножко поговорим о том, что такое:
  • Генеральная совокупность
  • Репрезентативная выборка
  • Уровень надёжности выборки
🙋‍♂️ Допустим, вы хотите понять, как изменились зарплаты русскоязычных айтишников за 2023 год..
Вот несколько подходов к анализу.
1. Идеальный, но нереалистичный способ
Создаёте реестр всех русскоязычных специалистов из IT-отрасли и опрашиваете каждого лично. А ещё лучше — проводите анализ данных на основании их банковских выписок.
✅ Такой вариант гарантирует 100% точность исследования.
❌ К сожалению, такой вариант вам, скорее всего, не доступен.
2. Повышаем точность до максимума за счёт снижения количества респондентов.
Сужаете запрос до «Как изменились зарплаты 10 продуктовых аналитиков в компании N за 2023 год». Опрашиваете всех лично и получаете точные данные.
✅ 100% точность за счёт малого количества целевых респондентов.
❌ Данных недостаточно, чтобы делать выводы об изменение з/п продуктовых аналитиков в других компаниях.
3. Реалистичный способ
  • Принимаете как данность, что до всех нужных респондентов дотянуться не получится.
  • Рассчитываете, какое количество респондентов будет корректно отражать реальность (генеральную совокупность; про неё — ниже).
  • Оцениваете допустимую погрешность (про это тоже см. ниже). Рассчитываете, сколько респондентов нужно опросить, чтобы можно было доверять полученным данным.
  • Проводите опрос достаточного числа респондентов.
  • Используете полученные данные, учитывая допустимую погрешность.

Ликбез про генеральную совокупность и уровень надёжности выборки

Генеральная совокупность — все подходящие нам респонденты
  • Например, если мы хотим узнать зарплаты всех разработчиков, то генеральная совокупность — это вообще все такие специалисты в мире.
Выборка — подходящие респонденты, которых мы опрашиваем
  • Например, мы не можем проанализировать зарплаты вообще всех разработчиков в мире (генеральной совокупности). Поэтому мы исследуем только часть этих разработчиков. Эту часть мы называем «выборкой».
Репрезентативная выборка — максимально похожа на то, как ведут себя люди в генеральной совокупности.
  • Например, те разработчики, которых мы опросили, должны быть максимально похожи на всех разработчиков в мире.
  • Вопрос в том, сколько должно быть человек в такой выборке. Этот вопрос решается формулой. Есть готовые калькуляторы для расчёта. Но чтобы воспользоваться этим калькулятором, нужно знать ещё несколько понятий ⬇️
Уровень надёжности выборки — это то, на сколько процентов респонденты в вашей выборке похожи генеральную совокупность.
  • Хорошим уровнем надёжности считается 95%.
  • То есть если в вашей выборке разработчики получают в среднем 150 000 рублей, то в 95% случаев остальные разработчики (в генеральной совокупности) тоже получают 150 000 рублей. Но при этом у оставшихся 5% всех разработчиков средняя зарплата будет отличаться. Она будет больше или меньше 150 000 рублей.
  • Если уровень надёжности выше 95%, мы счастливы. Если ниже, то это значит, что наши данные менее репрезентативны. Таким данным тоже можно доверять, но у них будет бо́льшая погрешность.
  • Какая погрешность считается нормальной? ⬇️
Допустимая погрешность выборки — это максимальный процент ошибки ваших результатов
  • Это те самые 5% разработчиков, из генеральной совокупности, которые получают больше или меньше150 000 рублей. То есть ведут себя не так, как разработчики в вашей выборке.
  • Для маркетинговых и бизнес-исследований есть стандарт, что погрешность не должна превышать 4-5%.

Какой должна быть доступная выборка, чтобы считаться репрезентативной?

Воспользуемся калькулятором.
Для нашего исследования зарплат всех разработчиков, мы хотим:
  • 5% допустимой погрешности. Чтобы мы могли смело опираться на полученные данные.
  • 95% уровень надёжности исследования. По той же причине.
  • Размер генеральной совокупности нам не известен. Мы не знаем точно, сколько всего разработчиков существует в мире.
  • Долю признака в генеральной совокупности мы тоже не знаем. То есть мы не знаем, сколько среди всех разработчиков мира джунов, мидлов и сеньоров, чтобы учесть это при составлении нашей выборки и опросить такие же доли людей этих грейдов.

Результат по формуле:

Нам требуется опросить 385 человек.
Screenshot 2024-03-19 at 17.15.02.png

Как можно ещё больше повысить репрезентативность выборки

Стоит стремиться к тому, чтобы сделать выборку максимально однородной.
Пример повышения однородности выборки:
  • Все айтишники
  • Только разработчики
  • Только фронтенд-разработчики
  • Только senior фронтент-разработчики
  • Только senior фронтенд-разработчики, говорящие на русском языке
📌 Чем более однородная выборка, тем больше мы можем доверять результату исследования