Как подготовить данные в R-классификации. Модель прогнозирующей аналитики

Как подготовить данные в R-классификации. Модель прогнозирующей аналитики - манекены

Чтобы выполнить прогностический анализ, вы должны получить данные в форме, которую алгоритм может использовать для построения модели. Для этого вам нужно потратить некоторое время, чтобы понять данные и узнать его структуру. Введите функцию, чтобы узнать структуру данных. Вот как это выглядит: данные >> str (seed). frame ': 210 obs. из 8 переменных: $ V1: № 15. 3 14. 9 14. 3 13. 8 16. 1 ... $ V2: число 14. 8 14. 6 14. 1 13. 9 15 ... $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 ... $ V4: № 5. 76 5. 55 5. 29 5. 32 5. 66 ... $ V5: № 3. 31 3. 33 3. 34 3. 38 3. 56 ... $ V6: № 2. 22 1. 02 2. 7 2. 26 1. 35 ... $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ...

 От взгляда на структуру вы можете сказать, что для данных необходим один шаг предварительной обработки и один шаг удобства: 

Переименуйте имена столбцов.
  • Это не обязательно, но для целей этого примера удобнее использовать имена столбцов, которые вы можете понять и запомнить. Измените атрибут с категориальными значениями на коэффициент.

  • Метка имеет три возможные категории. Чтобы переименовать столбцы, введите следующий код: >> colnames (seed) <-

c («область», «периметр», «компактность», «длина», «ширина», «асимметрия», «длина2», «seedType»)

 Затем измените атрибут с категориальными значениями на коэффициент. Следующий код изменяет тип данных на коэффициент: 
>> seed $ seedType <- factor (seed $ seedType)

Эта команда завершает подготовку данных для процесса моделирования. Ниже приведен вид структуры после процесса подготовки данных: данные >> str (сорняки). frame ': 210 obs. из 8 переменных: $ area: num 15. 3 14. 9 14. 3 13. 8 16. 1 ... $ периметр: номер 14. 8 14. 6 14. 1 13. 9 15 ... $ compactness: num 0. 871 0 881 0. 905 0. 895 0. 903 ... $ length: num 5. 76 5. 55 5. 29 5. 32 5. 66 ... $ width: num 3. 31 3. 33 3. 34 3. 38 3. 56 ... $ асимметрия: № 2. 22 1. 02 2. 7 2. 26 1. 35 ... $ length2: num 5. 22 4. 96 4. 83 4. 8 5. 17 ... $ seedType: Factor w / 3 levels «1», «2», «3»: 1 1 1 1 1 1 1 1 1 1 ...