Aice Associate 기출문제 풀이
Aice Associate 기출 문제 풀이 정리본입니다.
샘플 문항 풀러가기
기출문제 풀이
scikit-learn 패키지는 머신러닝 교육을 위한 최고의 파이썬 패키지입니다. scikit-learn를 별칭(alias) sk로 임포트하는 코드를 작성하고 실행하세요.
1
import sklearn as sk
Pandas는 데이터 분석을 위해 널리 사용되는 파이썬 라이브러리입니다. Pandas를 사용할 수 있도록 별칭(alias)을 pd로 해서 불러오세요.
1 2 3
import pandas as pd # import numpy as np # import seaborn as sns
- 모델링을 위해 분석 및 처리할 데이터 파일을 읽어오려고 합니다. Pandas함수로 2개 데이터 파일을 읽고 합쳐서 1개의 데이터프레임 변수명 df에 할당하는 코드를 작성하세요.
- A0007IT.json 파일을 읽어 데이터 프레임 변수명 df_a에 할당하세요.
- signal.csv 파일을 읽어 데이터 프레임 변수명 df_b에 할당하세요.
- df_a와 df_b 데이터프레임을 판다스의 merge 함수를 활용하여 합쳐 데이터프레임 변수명 df에 저장하세요
- 합칠 때 사용하는 키(on): ‘RID’
- 합치는 방법(how): ‘inner’
1 2 3
df_a = pd.read_json('./A0007IT.json') df_b = pd.read_csv('./signal.csv') df = pd.merge(df_a, df_b, on='RID', how='inner')
- Address1(주소1)에 대한 분포도를 알아 보려고 합니다. Address1(주소1)에 대해 countplot그래프로 만드는 코드와 답안을 작성하세요.
- Seaborn을 활용하세요.
- 첫번째, Address1(주소1)에 대해서 분포를 보여주는 countplot 그래프 그리세요.
- 출력된 그래프를 보고 해석한 것으로 옳지 않은 선택지를 아래에서 골라 ‘답안04’ 변수에 저장하세요. (예: 답안04 = 4)
- Countplot그래프에서 Address1(주소1) 분포를 확인시 ‘경기도’ 분포가 제일 크다.
- Address1(주소1) 분포를 ‘인천광역시’보다 ‘서울특별시’가 더 크다.
- 지역명이 없는 ‘-‘에 해당되는 row(행)가 2개 있다.
1 2 3 4 5 6 7
import seaborn as sns sns.countplot(data=df, x='Address1') plt.show() df = df[df['Address1'] != '-'] 답안04 = 3
- 실주행시간과 평균시속의 분포를 같이 확인하려고 합니다. Time_Driving(실주행시간)과 Speed_Per_Hour(평균시속)을 jointplot그래프로 만드세요.
- Seaborn을 활용하세요.
- X축에는 Time_Driving(실주행시간)을 표시하고 Y축에는 Speed_Per_Hour(평균시속)을 표시하세요.
1 2
sns.jointplot(data=df, x='Time_Driving', y='Speed_Per_Hour') plt.show()
- 위의 jointplot 그래프에서 시속 300이 넘는 이상치를 발견할 수 있습니다. 가이드에 따라서 전처리를 수행하고 저장하세요.
- 대상 데이터프레임: df
- jointplot 그래프를 보고 시속 300 이상되는 이상치를 찾아 해당 행(Row)을 삭제하세요.
- 불필요한 ‘RID’ 컬럼을 삭제하세요.
- 전처리 반영 후에 새로운 데이터프레임 변수명 df_temp에 저장하세요.
1 2 3 4
df_temp = df[df['Speed_Per_Hour'] < 300] df_temp = df_temp.drop(['RID'], axis=1) df_temp.info()
- 모델링 성능을 제대로 얻기 위해서는 결측치 처리는 필수입니다. 아래 가이드를 따라 결측치 처리하세요.
- 대상 데이터프레임: df_temp
- 결측치를 확인하는 코드를 작성하세요.
- 결측치가 있는 행(raw)를 삭제하세요.
- 전처리 반영된 결과를 새로운 데이터프레임 변수명 df_na에 저장하세요.
- 결측치 개수를 ‘답안07’ 변수에 저장하세요. (예: 답안07 = 5)
1 2 3
df_temp.isnull().sum() df_na = df_temp.dropna(axis=0) 답안07 = 2
- 모델링 성능을 제대로 얻기 위해서 불필요한 변수는 삭제해야 합니다. 아래 가이드를 따라 불필요 데이터를 삭제 처리하세요.
- 대상 데이터프레임: df_na
- ‘Time_Departure’, ‘Time_Arrival’ 2개 컬럼을 삭제하세요.
- 전처리 반영된 결과를 새로운 데이터프레임 변수명 df_del에 저장하세요.
1
df_del = df_na.drop(['Time_Departure', 'Time_Arrival'], axis=1)
- 원-핫 인코딩(One-hot encoding)은 범주형 변수를 1과 0의 이진형 벡터로 변환하기 위하여 사용하는 방법입니다. 원-핫 인코딩으로 아래 조건에 해당하는 컬럼 데이터를 변환하세요.
- 대상 데이터프레임: df_del
- 원-핫 인코딩 대상: object 타입의 전체 컬럼
- 활용 함수: Pandas의 get_dummies
- 해당 전처리가 반영된 결과를 데이터프레임 변수 df_preset에 저장해 주세요.
1 2
cols = df_del.select_dtypes('object').columns df_preset = pd.get_dummies(data=df_del, columns=cols)
- 훈련과 검증 각각에 사용할 데이터셋을 분리하려고 합니다. Time_Driving(실주행시간) 컬럼을 label값 y로, 나머지 컬럼을 feature값 y로, 나머지 컬럼을 feature값 X로 할당한 후 훈련데이터셋과 검증데이터셋으로 분리하세요. 추가로 가이드 따라서 훈련데이터셋과 검증데이터셋에 스케일링을 수행하세요.
- 대상 데이터프레임: df_preset
- 훈련과 검증 데이터셋 분리
- 훈련 데이터셋 label: y_train, 훈련 데이터셋 Feature: X_train
- 검증 데이터셋 label: y_valid, 검증 데이터셋 Feature: X_valid
- 훈련 데이터셋과 검증 데이터셋 비율은 80:20
- random_state: 42
- Scikit-learn의 train_test_split 함수를 활용하세요.
- RobustScaler 스케일링 수행
- sklearn.preprocessing의 RobustScaler 함수 사용
- 훈련데이터셋의 Feature는 RobustScaler의 fit_transform 함수를 활용하여 X_train 변수로 할당
- 검증데이터셋의 Feature는 RobustScaler의 transform 함수를 활용하여 X_test 변수로 할당
1 2 3 4 5 6 7 8 9 10 11 12 13 14
from sklearn.model_selection import train_test_split from sklearn.preprocessing import RobustScaler x = df_preset.drop('Time_Driving', axis=1) y = df_preset['Time_Driving'] X_train, X_valid, y_train, y_valid = train_test_split(x, y, test_size=0.2, random_state=42) robustScaler = RobustScaler() X_train_robust = robustScaler.fit_transform(X_train) X_test_robust = robustScaler.fit_transform(X_valid) X_train = pd.DataFrame(X_train_robust, index=X_train.index, columns=X_train.columns) X_test = pd.DataFrame(X_test_robust, index=X_valid.index, columns=X_valid.columns)
- Time_Driving(실주행시간)을 예측하는 머신러닝 모델을 만들려고 합니다. 의사결정나무(decision tree)와 랜덤포레스트(RandomForest)는 여러 가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 모형으로 분류(classification)와 회귀 분석(regression)에 모두 사용될 수 있습니다. 아래 가이드에 따라 의사결정나무(decision tree)와 랜덤포레스트(RandomForest) 모델 만들고 학습을 진행하세요.
- 의사결정나무(decision tree)
- 트리의 최대 깊이: 5로 설정
- 노드를 분할하기 위한 최소한의 샘플 데이터수(min_samples_split): 3로 설정
- random_state: 120로 설정
- 의사결정나무(decision tree) 모델을 df 변수에 저장해 주세요.
- 랜덤포레스트(RandomForest)
- 트리의 최대 깊이: 5로 설정
- 노드를 분할하기 위한 최소한의 샘플 데이터수(min_samples_split): 3로 설정
- random_state: 120로 설정
- 랜덤포레스트(RandomForest) 모델을 rf 변수에 저장해주세요.
- 위의 2개의 모델에 대해 fit을 활용해 모델을 학습해 주세요. 학습 시 훈련데이터 셋을 활용해 주세요.
1 2 3 4 5 6 7 8
from sklearn.tree import DecisionTreeRegressor from sklearn.ensemble import RandomForestRegressor dt = DecisionTreeRegressor(max_depth=5, min_samples_split=3, random_state=120) dt.fit(X_train, y_train) rf = RandomForestRegressor(max_depth=5, min_samples_split=3, random_state=120) rf.fit(X_train, y_train)
- 의사결정나무(decision tree)
- 위 의사결정나무(decision tree)와 랜덤포레스트(RandomForest) 모델의 성능을 평가하려고 합니다. 아래 가이드에 따라 예측 결과의 mae(Mean Absolute Error)를 구하고 평가하세요.
- 성능 평가는 검증 데이터셋을 활용하세요.
- 11번 문제에서 만든 의사결정나무(decision tree) 모델로 y값을 예측(predict)하여 y_pred_dt에 저장하세요.
- 검증 정답(y_valid)과 예측값(y_pred_dt)의 mae(Mean Absolute Error)를 구하고 dt_mae 변수에 저장하세요.
- 11번 문제에서 만든 랜덤포레스트(RandomForest) 모델로 y값을 예측(predict)하여 y_pred_rf에 저장하세요.
- 검증 정답(y_valid)과 예측값(y_pred_rf)의 mae(Mean Absolute Error)를 구하고 rf_mae 변수에 저장하세요.
- 2개의 모델에 대한 mae 성능평가 결과를 확인하여 성능 좋은 모델 이름을 ‘답안12’ 변수에 저장하세요.
- 예: 답안12 = ‘decisiontree’ 혹은 답안12 = ‘randomforest’
1 2 3 4 5 6 7 8 9 10 11 12
from sklearn.metrics import mean_absolute_error y_pred_dt = dt.predict(X_valid) dt_mae = mean_absolute_error(y_valid, y_pred_dt) print(dt_mae) y_pred_rf = rf.predict(X_valid) rf_mae = mean_absolute_error(y_valid, y_pred_rf) print(rf_mae) 답안12 = 'randomforest' print(답안12)
- Time_Driving(실주행시간)을 예측하는 딥러닝 모델을 만들려고 합니다. 아래 가이드에 따라 모델링하고 학습을 진행하세요.
- Tensorflow framework를 사용하여 딥러닝 모델을 만드세요.
- 히든레이어(hidden layer) 2개 이상으로 모델을 구성하세요.
- dropout 비율 0.2로 Dropout 레이어 1개를 추가해 주세요.
- 손실함수는 MSE(Mean Squared Error)를 사용하세요.
- 하이퍼파라미터 epochs: 30, batch_size: 16으로 설정해 주세요.
- 각 에포크마다 loss와 metrics 평가하기 위한 데이터로 x_valid, y_valid 사용하세요.
- 학습정보는 history 변수에 저장해 주세요.
1 2 3 4 5 6 7
model = Sequential() model.add(Dense(128, input_shape=(X_train.shape[1],), activation='relu')) model.add(Dropout(0.2)) model.add(Dense(64, activation='relu')) model.add(Dense(1)) model.compile(optimizer='adam', loss='mse', metrics='mse') history = model.fit(X_train, y_train, epochs=30, batch_size=16, validation_data=(X_valid, y_valid))
- 위 딥러닝 모델의 성능을 평가하려고 합니다. Matplotlib 라이브러리 활용해서 학습 mse와 검증 mse를 그래프로 표시하세요.
- 1개의 그래프에 학습 mse과 검증 mse 2가지를 모두 표시하세요.
- 위 2가지 각각의 범례를 ‘mae’, ‘val_mse’로 표시하세요.
- 그래프의 타이틀은 ‘Model MSE’로 표시하세요.
- X축에는 ‘Epochs’라고 표시하고 Y축에는 ‘MSE’라고 표시하세요.
1 2 3 4 5 6
plt.plot(history.history['mse']) plt.plot(history.history['val_mse']) plt.legend(['mse', 'val_mse']) plt.title('Model MSE') plt.xlabel('Epochs') plt.ylabel('Mse')
This post is licensed under CC BY 4.0 by the author.