Classification of Strength Properties of Commercially Important Wood Types Grown in the United States by Machine Learning


Creative Commons License

Kılıç K.

Artvin Çoruh Üniversitesi Orman Fakültesi Dergisi, cilt.27, sa.1, ss.66-80, 2026 (TRDizin)

Özet

Amerika Birleşik Devletleri’nde yetiştirilmekte olan ticari öneme sahip ağaç türlerinin mekanik özelliklerine dayanarak geniş yapraklı ağaç (hardwood) ve iğne yapraklı ağaç (softwood) odunlarının ayrımı yapılmaktadır. Altı farklı makine öğrenmesi algoritması; SVM, XGBoost, Random Forest, Logistic Regression, KNN ve Decision Tree optimize edilerek karşılaştırmalı analiz gerçekleştirilmektedir. Veri seti üzerinde eksik verilerin tamamlanması, kategorik verilerin kodlanması ve standartlaştırma gibi ön işlemler uygulanarak veriler makine öğrenme algoritmaları için uygun hale getirilmektedir. Araştırmada, Stratified 10-Fold Cross Validation yöntemi kullanılarak deneyler gerçekleştirilmiştir. Hiperparametre optimizasyonu GridSearchCV ile gerçekleştirilmiştir. Doğruluk açısından en iyi sonucu %96.90 ile SVM algoritması vermektedir. Bu modeli %95.13 doğruluk ve 0.9891 AUC değeri ile XGBoost, ardından %94.25 doğrulukla Random Forest takip etmiştir. Logistic Regression %90.27, Decision Tree %90.71 ve KNN %88.05 daha düşük doğrulukla performans göstermektedir. Sonuçlar, kernel tabanlı (SVM) ve topluluk tabanlı (XGBoost, RF) modellerin doğrusal ve örnek tabanlı modellere göre daha yüksek sınıflandırma başarımı sunduğunu göstermektedir. Bu modeller, odun kalite kontrol süreçlerini iyileştirme, kaynak verimliliğini artırma ve sürdürülebilir ormancılık uygulamalarına katkı sağlama potansiyeli taşımaktadır.

Commercially important wood species grown in the United States are divided into hardwood and softwood based on their mechanical properties. Comparative analysis is conducted by optimising six different machine learning algorithms: SVM, XGBoost, Random Forest, Logistic Regression, KNN, and Decision Tree. Preliminary processes such as completing missing data, coding categorical data, and standardisation are applied to the dataset to make it suitable for machine learning algorithms. Experiments were conducted using the stratified 10-fold cross-validation method. Hyperparameter optimisation was performed with GridSearchCV. The SVM algorithm provides the best accuracy with 96.90%. This model is followed by XGBoost with 95.13% accuracy and an AUC of 0.9891, followed by Random Forest with 94.25% accuracy. Logistic Regression performs with 90.27% accuracy, Decision Tree with 90.71% accuracy, and KNN with 88.05% accuracy. Results show that kernel-based (SVM) and ensemble-based (XGBoost, RF) models provide higher classification performance than linear and instance-based models. These models have the potential to improve wood quality control processes, increase resource efficiency, and contribute to sustainable forestry practices.