Skip to content

DataClasse/baseline-improvement

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Улучшение baseline-модели прогнозирования стоимости недвижимости

Описание проекта

Проект по улучшению базовой ML-модели для прогнозирования стоимости недвижимости: полный pipeline (feature engineering, отбор признаков, оптимизация гиперпараметров), интеграция с MLflow.

Цели:

  • Улучшить метрики качества относительно baseline
  • Воспроизводимый ML pipeline
  • Трекинг экспериментов и версий моделей в MLflow

Стек: Python 3.10+, Scikit-learn, CatBoost, MLflow, MLXTEND, Optuna, AutoFeat, Pandas, Matplotlib, Seaborn.

Клонирование и запуск

git clone https://github.com/DataClasse/baseline-improvement.git
cd baseline-improvement
pip install -r requirements.txt

Настройка окружения

Создайте .env в корне проекта:

MLFLOW_TRACKING_HOST=127.0.0.1
MLFLOW_TRACKING_PORT=5000
MLFLOW_S3_ENDPOINT_URL=<ваш-s3-endpoint>
AWS_ACCESS_KEY_ID=<ваш-access-key>
AWS_SECRET_ACCESS_KEY=<ваш-secret-key>

Запуск MLflow и ноутбука:

chmod +x mlflow_server/rms.sh
./mlflow_server/rms.sh
jupyter notebook model_improvement/project_sprint_2.ipynb

Структура проекта

Пять этапов (каждый логируется в MLflow):

  1. Разворачивание MLflow и регистрация базовой модели
  2. EDA (исследовательский анализ данных)
  3. Генерация признаков (RobustScaler, KBinsDiscretizer, PolynomialFeatures, AutoFeat)
  4. Отбор признаков (Forward/Backward Selection) и обучение новой версии
  5. Подбор гиперпараметров (HalvingRandomSearchCV, Optuna) и финальная модель

Эксперимент MLflow: baseline_model_improvement_REPP. Артефакты и S3 настраиваются через переменные окружения.

Результаты

Метрика Baseline Финальная модель
RMSE 4 157 670 4 678 509
R2 0.880 0.851

Выводы и возможные улучшения описаны в заключении ноутбука.

Автор

Дмитрий Щербаков


Если проект был полезен, поставьте звезду.

About

Улучшение baseline-модели: feature engineering, CatBoost, Optuna, MLflow. Прогноз стоимости недвижимости, метрики RMSE/R2.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages