8 Лучших практик в подготовке данных

8 Лучших практик в подготовке данных - макеты

Статистические пакеты программного обеспечения в наши дни чрезвычайно эффективны, но они не могут преодолеть данные низкого качества. Ниже приводится список вещей, которые вам нужно сделать, прежде чем вы начнете строить статистические модели.

Проверка форматов данных

Ваш анализ всегда начинается с файла необработанных данных. Сырые файлы данных бывают разных форм и размеров. Данные мэйнфрейма отличаются от данных ПК, данные электронных таблиц отформатированы иначе, чем веб-данные, и так далее. И в век больших данных вы наверняка столкнетесь с данными из разных источников. Ваш первый шаг в анализе ваших данных - убедиться, что вы можете прочитать файлы, которые вам даны.

Вам нужно действительно посмотреть, что содержит каждое поле. Например, не следует верить, что только потому, что поле указано как поле символов, оно фактически содержит символьные данные.

Проверка типов данных

Все данные попадают в одну из четырех категорий, которые влияют на статистику, которую вы можете соответствующим образом применить к ней:

  • Номинальные данные - это просто имя или идентификатор.

  • Порядковые данные помещают записи в порядок от самого низкого до самого высокого.

  • Интервальные данные представляют значения, в которых различия между ними сопоставимы.

  • Данные отношения подобны данным интервалов, за исключением того, что они также допускают значение 0.

Важно понять, к какому категориям относятся ваши данные, прежде чем вы загрузите их в статистическое программное обеспечение. В противном случае вы рискуете оказаться в совершенно разумной тарабарщине.

График ваших данных

Важное значение имеет понимание того, как распределяются ваши данные. Вы можете запускать статистические процедуры, пока не будете синими, но ни один из них не даст вам как можно больше информации о том, как ваши данные выглядят как простой граф.

Проверка точности данных

Как только вам будет удобно, что данные отформатированы так, как вы этого хотите, вам все равно нужно убедиться, что они точны и что это имеет смысл. Этот шаг требует, чтобы у вас были некоторые знания в предметной области, в которой вы работаете.

На самом деле нет ни одного вырезанного подхода к проверке точности данных. Основная идея состоит в том, чтобы сформулировать некоторые свойства, которые, по вашему мнению, должны демонстрировать данные и протестировать данные, чтобы проверить, сохраняются ли эти свойства. Всегда ли положительные цены на акции? Все коды продуктов соответствуют списку действующих? По сути, вы пытаетесь выяснить, действительно ли данные - это то, что вам сказали.

Идентификация выбросов

Выбросы - это точки данных, которые не соответствуют остальным данным. Они либо очень большие, либо очень маленькие значения по сравнению с остальной частью набора данных.

Выбросы являются проблематичными, поскольку они могут серьезно подорвать статистику и статистические процедуры. Единственный выброс может оказать огромное влияние на ценность среднего. Поскольку среднее значение должно представлять центр данных, в некотором смысле этот один из них делает бесполезным.

Когда сталкиваются с выбросами, наиболее распространенной стратегией является их удаление. В некоторых случаях, однако, вы можете принять их во внимание. В этих случаях обычно желательно проводить анализ дважды - один раз с включенными выбросами и один раз с исключенными выбросами. Это позволяет оценить, какой метод дает более полезные результаты.

Сделка с отсутствующими значениями

Отсутствующие значения являются одной из наиболее распространенных (и раздражающих) проблем с данными, с которыми вы столкнетесь. Первым импульсом может быть сброс записей с отсутствующими значениями из вашего анализа. Проблема заключается в том, что недостающие значения часто представляют собой не просто случайные небольшие сбои данных.

Проверьте свои предположения о том, как распределяются данные.

Многие статистические процедуры зависят от предположения, что данные распределены определенным образом. Если это предположение не оправдалось, точность ваших предсказаний страдает.

Наиболее распространенное предположение для методов моделирования, обсуждаемых в этой книге, состоит в том, что данные обычно распределяются.

Или нет. В случаях, когда данные не распределяются по мере необходимости, все это не обязательно теряется. Существует множество способов преобразования данных, чтобы получить распределение в нужную вам форму.

Одним из лучших способов проверки точности статистической модели является фактическое тестирование ее по сравнению с данными после ее создания. Один из способов сделать это - случайное разбиение вашего набора данных на два файла. Вы можете назвать эти файлы «Анализ и тест» соответственно.

Вам нужно разбить данные случайным образом, чтобы быть эффективными. Например, вы не можете просто разбить набор данных в верхнюю половину и нижнюю половину, например. Почти все файлы данных отсортированы как-то - по дате, если ничего больше. Это вводит систематические шаблоны, которые придают различным частям файла различные статистические свойства. Когда вы произвольно разбиваете файл, вы даете каждой записи равные шансы быть в любом файле. Образно, вы переворачиваете монету для каждой записи, чтобы решить, в какой файл она входит. Случайность дает обеим файлам те же статистические свойства, что и исходные данные.

После того как вы разделили набор данных, отложите тестовый файл. Затем приступите к построению вашей предсказательной модели с помощью файла Analysis. Как только модель будет построена, примените ее к тестовому файлу и посмотрите, как это делается.

Тестирование моделей таким образом помогает защитить от явления, известного как переуплотняющий . По существу, статистические процедуры могут запоминать файл данных, а не обнаруживать значимые отношения между переменными. Если происходит переустановка, модель будет довольно плохо тестировать тестовый файл.

Резервное копирование и документирование всего, что вы делаете

Поскольку статистическое программное обеспечение становится настолько простым в использовании, то кусок пирога начинает генерировать отчеты и графики, не говоря уже о файлах данных.Вы можете запускать процедуры буквально одним нажатием кнопки. Вы можете создать несколько десятков графиков на основе различных преобразований данных в течение нескольких минут. Это позволяет легко потерять все, что вы сделали, и почему.

Важно, чтобы вы записывали записи о том, что делаете. Графы должны быть помечены именем (и версией) данных, которые были использованы для их создания. Статистические процедуры, которые вы создаете, необходимо сохранить и задокументировать.

Также важно создать резервные копии файлов данных. В ходе анализа вы, вероятно, создадите несколько версий ваших данных, которые отражают различные поправки и трансформацию переменных. Вы должны сохранить процедуры, которые создали эти версии. Они также должны быть документированы таким образом, который описывает, какие преобразования вы сделали и почему.

Документация - это не любимая задача, но мы говорим по опыту, когда настоятельно призываем вас не полагаться на вашу память, когда речь идет о ваших проектах анализа.

Выполняя описанные шаги, вы повышаете надежность своих статистических моделей. Во многих случаях подготовительная работа на самом деле занимает больше времени, чем фактическое построение модели. Но это необходимо. И вы в конце концов будете благодарить себя за то, чтобы работать с ним методично.