Değişken Seçimi Hakkında Temel Bilgiler

Hayatımızın artık her yerinde aktif olarak denk geldiğimiz yapay öğrenme, derin öğrenme ve yapay zeka konuları, herkesin üzerinde çalışmalar gerçekleştirdiği, yapılan tahminlerin başarı skoru ile ölçüldüğü bir durum söz konusudur. İş süreçleri içerisinde, yapay öğrenme konusu kritik bir öneme sahiptir. Hazır olarak elinizde bulunan ya da bizzat firma tarafından toplanılarak Değişken Mühendisliği evresine gelen veri, birçok konudan özenle incelenerek son duruma hazırlanıp Veri Bilimci olarak çalışan kişinin önüne götürülür. O da veriyi anlamlaştırarak firma için veriden çıkarsama yapabilir. Böylece geliştirilen ürün ya da hizmet müşteriye sunularak test edilir ve gerekli başarı parametrelerini sağlarsa, ürünün performansını sürdürülebilir kılabiliriz. Burada en önemli basamaklardan birisi, ortaya çıkartılan ürünün ölçeklenebilir olması ve iş süreçlerine adaptasyon evresinin hızlı şekilde ayarlanmasıdır. Bir diğer olay ise korelasyon ile belirlenen değişkenlerin önem derecelerini veri seti içerisinden elde etmek, bunu anlamlı hale getirip modelleme evresi öncesinde Değişken Mühendisi sayesinde belirlemektir. Değişken Mühendisleri, Veri Bilimci’nin iş sürecini hızlandırıp ona kolaylık sağlayan bir ek güç olarak düşünebiliriz.

 

 

İş arama durumunda sık sık karşımıza çıkabilen bir ‘Değişken Mühendis’ ilanı ile karşılaşılabilir. Veri içinden öğrendiğimiz kritik bilgileri, veri hazırlama aşamasında değişken seçimi işlemi sırasında elde edebiliriz. Özellik seçme yöntemlerinin, hedef değişkeni tahmin etmek için girdi değişkenlerinin sayısını bir model için en yararlı olduğuna inanılanlara indirmesi amaçlanır. Değişken seçim işlemleri, veri ön işleme süreçleri içerisinde bulunurken mantıklı bir şekilde belirlenmesi durumunda iş yükünü olabildiğince azaltarak, çalışanlara büyük oranda kolaylık sağlar. Bunun için özel bir iş alanı mevcut olduğunu belirtmiştim. Değişken seçim durumları, verinin modelleme konusundaki başarısını da etkileyerek tahmin edilecek değerlerin başarısının ne derece olacağına direkt olarak etki eder. Bundan ötürü, ilk veriyi ele aldığımızdan ürün aşamasına kadar geçen olayların içerisindeki en önemli kısım, burada çalışan insanın değişken seçimine doğru karar vermesinden geçer. Gidişatın olumlu geçmesi, ortaya çıkacak ürünün kısa süre ile hayata geçmesini sağlar. Veriden istatistiksel çıkarımlar yapmak, hangi verinin ne derece önemli olduğunu algoritmalar aracılığıyla belirlemek kadar önemlidir. İstatistik bilimi, genel olarak veri bilimi süreçlerinin bünyesinde rol almalıdır.

 

 

İstatistiksel filtre ile belirlenecek değişken seçim yöntemleri de vardır. Bunlara değişken seçimleri içerisinde farklılık gösteren ölçekleri örnek verebiliriz. Bu alanda çalışan insanların çoğu, istatistiksel önem düzeylerini maalesef yeterince önemsemiyorlar. Veri Bilimi ve Yapay Zeka üzerine çalışan bazı kişiler içerisinde de sadece kod yazmak, bu işin temeli olarak görülüyor. Veri seti için değişkenlere kategorik ve numerik değişken örneklerini verebilirim. Ek olarak, bu değişkenler de kendi bünyesinde ikiye ayrılmaktadır. Numerik olarak gördüğümüz değişken, integer ve float olarak biliniyorken, kategorik olarak gördüğümüz değişkenler; nominal, ordinal ve boolean olarak bilinmektedir. Bunu en temel olarak aşağıda koyduğum görselde bulabilirsiniz. Değişken seçimi için bu değişkenler, kelimenin tam anlamıyla hayati öneme sahiptirler. Yapılan işlemler doğrultusunda bu değişkenlere değerlendirme aşamasında bir İstatistikçi ile birlikte karar verilebilir ve seçilen değişkenlerin analizi sağlam temellere dayanan şekilde yapılmalıdır. Bu alanda çalışanların en gerekli özelliklerinden birisi yorumlayıp iyi bir şekilde analiz yeteneğine sahip olmalarıdır. Bu sayede, hazırladıkları verileri temelleri mantıkla eşleşen halde ürün şeklinde rahatlıkla sunabilirler.

 

 

Neredeyse tam olarak en doğru metot bulunmamaktadır. Her veri seti için değişken seçimi iyi bir analizle değerlendirilmektedir. Çünkü yapılan işlemler, her bir değişken için değişkenlik gösterebilir. Yani, bir veri seti çok fazla integer ya da float değer barındırırken, üzerine çalıştığınız bir diğer veri seti ise boolean olabilir. Bundan ötürü değişken seçimi yöntemleri her veri seti için farklılık gösterdiği durumlar olabilir. Önemli olan konu, hızlı bir şekilde adapte olup veri setinin bize ne sunduğu anlayarak ona göre çözümler üretmek olabilir. Bu yol ile birlikte, yapılan işlemler boyunca alınan kararların daha sağlıklı bir şekilde devam etmesi mümkün olur. Kategorik değişkenler, ki kare testi gibi yöntemlerle belirlenebilir hatta bu yöntem daha güçlüdür ve verim oranı haliyle daha yüksek noktalara erişebilir. Ürün veya hizmet geliştirme aşamaları boyunca değişken seçimi, bir modelin başarı kriterleri içerisinde katkı sağlayan en mühim aşamadır.

 

References:

https://globalaihub.com/basic-statistics-information-series-2/

https://globalaihub.com/temel-istatistik-tanimlari-ve-aciklamalari/

https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/#:~:text=Feature%20selection%20is%20the%20process,the%20performance%20of%20the%20model.

https://www.istmer.com/regresyon-analizi-ve-degisken-secimi/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

 

Kredi Skorlama / Kredi Analizi

Her şirketin yatırım yapacağı ya da finans anlamında gelişim konusunda yardımcı olacağı belirli start-up’lar mevcuttur. Belirli analizler sonucu, yatırımcı firma yatırım yapacağı ve bünyesine alacağı firmayı belirler. Bu sayede gelişimi göz önüne alarak, getiri ile doğru orantılı olarak sağlayacağı katkı miktarı önceden hesaplanır. Bankalarda da müşterileri arasında bu tarz bir analiz yöntemi gelişmiştir. Kısaca banka ile müşteri arasında kredi başvurusunda kredi skorlama işlemleri yapılmaktadır. Bunun yapılma amacı temelde insanlar aslında alacağı krediyi öder mi ya da ödeyebilecek mi diye testler ile değerlendirilir. Buna makine öğrenmesi konusunda kredi skorlama denmektedir. Yapılan işlemler sonrası, krediye başvuran kişiye olumlu ya da olumsuz bir geri dönüş yapılmaktadır. Bu doğrultuda değerlendiren birçok metrik bulunmaktadır. Bunlara örnek olarak; insanların aldıkları maaş miktarı, kariyer geçmişi, daha öncesinde kredi alma durumları ve bunun gibi birçok daha detaylı olarak incelenecek olan özellikler bulunmaktadır. Bunların değerlendirilmesi sonucu, oluşacak olan 1 ve 0 değerleri bize olumlu ya da olumsuz anlam vermektedir.
 

 
Bankaların çoğu konuda olduğu gibi bu konuda da geniş çaplı araştırma yaparak, sahip oldukları verileri analiz ettikten sonra makine öğrenmesi işlemlerine sokmaktadır. Bu işlemler sonucunda, mantık sınaması adımları üzerinde duruma göre birkaç optimizasyon işlemleri yapıp son model hali hazırlanır. Ardından bu durumlar hızlanarak hemen her kredi başvurusu yapan insanlar için test edilir. Değer olarak ise 0 ve 1 değerleri atanır. İşlemler sonucunda 0 çıktısı bize, ‘bu kişiye kredi vermemizi önermez’ tam tersi yani 1 çıktısı geldiğinde ise ‘bu kişiye kredi verebilirsiniz’ diyerek bize müşteri segmentasyon işlemini de yapmış olur. Son adım da veri bilimi kadrosu sayesinde hallolduktan sonra, bizim için geriye kalan son adım ise bu bilgileri gerekli departmanlara ileterek, çıkan sonuçlara göre kişilerin başvurularını sonuçlandırarak, geri dönüş yapmak kalır. Analizlerin önemi, bir banka için kritik bir öneme sahiptir. Çünkü yapılan en ufak hatalar, yüklü miktarların kayıplarına sebep olabilmektedir. Bu sebeple yapılan her kredi skorlama işlemi, bankaya olumlu şekilde dönmelidir.
 
 

 
Kredi skorlama işlemleri, her banka için büyük önem taşımaktadır. Kasadan çıkan paranın miktarı ve kredi verilecek kişinin sorumluluğunu tamamen yerine getirmemesi, maddi anlamda büyük sorunlara yol açacaktır. Bundan ötürü arka tarafta çalışan veri bilimi ekibi, bu konuda uzman olmalı ve tedbirleri her koşula göre değerlendirmelidir. Buna ek olarak, insanların kişisel bilgilerini de iyice analiz edip başvurusuna mantıklı bir dönüş yapılmalıdır. Veri ön işleme adımlarını düzenleyip gerekli değişkenlerin üzerinden yapılan işlemler sonrası, süreç biraz daha verinin hazır hale getirilmesiyle alakalıdır. Kredi skorlama konusunda kritik derecede öneme sahip olan bir diğer mühim konu, veri ön işleme adımları ve sonrasında atılacak analiz adımlarıdır. Veri Bilimi ekibi, değişken mühendisliğini de kendileri yaparak değişken etkilerini ve onların korelasyonlarını aralarında oluşan bağları da doğru bir şekilde analiz etmelidir. Bu işlemler sonrasında ise, mantıklı bir sonucun ortaya çıkması kaçınılmaz olacaktır. Hata payını minimum yapmak, tamamen veriyi mükemmele yakın bir şekilde ayarlamak ve gerekli parametreleri değerlendirmektir.
 

 
Kredi skorlaması yapmak için gerekli işlemlerin en başında makine öğrenmesi algoritmasının oluşturulması ve model öncesi, değişkenlerin bir kere daha kontrol edilmesi gereklidir. Çünkü yapılan işlemlerin tamamen değişkenler ile bağlantısı vardır. Bundan dolayı, kategorik ya da numerik değişkenlerin modele etkisi farklılık göstermektedir. Ayrıca bu modeli kurarken de dikkatli şekilde ayarlanması gerekmektedir. Kullanacak olduğumuz parametrelerin özel olarak Python programlama dili kullanılıyorsa, içerisinde bulunan GridSearchCV() metodu sayesinde, parametreler denenebilir ve sonrasında en uygun parametreler modelin içerisine entegre edilir. Böylece kredi skorlama konusunda daha başarılı bir şekilde yol alabilir. Bu da verilen hizmetin seviyesini arttırır ve bu sayede insanların beklentilerini karşılayabilir, onlara uygun şekilde kişiye özel bir hizmet sağlanabilir. Memnuniyet seviyesi üst düzey olan kişiler, banka ile olan bağını geliştirir. Ek olarak, psikolojik olarak kendilerini daha güvende hissederler. İnsanların en temel özelliği ise bir yerlere ait ya da bağlı hissetmektir. Bunu sağlamak, sahip olunan müşteri potansiyelini arttırabilir. Kendi reklamınızın yapılmasını isterseniz, müşterileriniz ile aranızdaki bağı iyi derecede tutabilir ve onların size olan bağlılığını arttırmanız yeterli olacaktır. Buna direkt etki eden şeylerden birisi ise şüphesiz kredi skorlamasıdır.
 

 
References :
-https://globalaihub.com/examples-of-artificial-intelligence-in-life/
-https://globalaihub.com/machine-learning-makine-ogrenimi/
-https://www.cgap.org/sites/default/files/publications/2019_07_Technical_Guide_CreditScore.pdf
-https://www.moodysanalytics.com/solutions-overview/credit-origination/credit-assessment
-https://corporatefinanceinstitute.com/resources/knowledge/credit/credit-analysis-process/

R Programlama

Yapay zeka ve makine öğrenmesi denilince akla ilk gelen yazılım dillerini Java, C, Python olarak sıralayabiliriz. Bir istatistikçi olarak benim de kullandığım, veri bilimciler tarafından da sıklıkla tercih edilen R Programlama, istatistiksel veri analizi, grafik gösterimi, istatistiki yazılım geliştirme alanlarında kullanılan bir programlama ve yazılım dilidir.
R, doğrusal ve doğrusal olmayan modelleme, klasik istatistiki testler, zaman serileri analizi, sınıflandırma, kümeleme gibi istatistiki teknikler ve grafik çizim teknikleri sunmaktadır. R;

  • Etkili bir veri işleme ve depolama tesisidir.
  • Diziler, özellikle matrisler üzerinde hesaplamalar için bir operatör paketi içerir.
  • Veri analizi için geniş, tutarlı, entegre bir ara araç koleksiyonu içerir.
  • Veri analizi için grafiksel olanaklar ve ekranda veya basılı kopya üzerinde görüntüleme ve koşullu ifadeler, döngüler, kullanıcı tanımlı özyinelemeli işlevler ve girdi ve çıktı olanaklarını içeren iyi geliştirilmiş, basit ve etkili bir programlama dilidir.

R Programın Tarihçesi
Yeni Zelanda Auckland Üniversitesinden Ross Ihaka ve Robert Gentleman tarafından ortaya çıkarılan R, günümüzde de  R Geliştirme Çekirdek Ekibi tarafından geliştirilmektedir. S programlama dilinin  uyarlaması olarak karşımıza çıkar. R Foundation tarafından desteklenen ve GNU Tasarısının parçası olan bir özgür yazılımdır.
R Programlamanın Avantajları

  1. R, gerektiği yerlerde matematiksel semboller ve formüller dahil olmak üzere iyi tasarlanmış yayın kalitesinde grafiklerin üretilebilmesinde kolaylık sağlar.
  2. Açık kaynak kodlu ve ücretsizdir. Veri madenciliği, istatistik gibi konularda 15.000’in üzerinde paket içerir. Aynı zamanda kullanıcıların kendi paketlerini oluşturmalarında veya çok özel araştırma alanlarına ait paketlerle oldukça geliştirilebilirdir.
  3. Çapraz platform olması sayesinde GNU/Linux, Microsoft Windows gibi değişik işletim sistemleri üzerinde çalışabilir.
  4. Microsoft Excel, Microsoft Access, Oracle, MySQL ve SQLite, Hadoop, SAS ve SPSS gibi birçok araç ile entegre şekilde çalışabilir bu sayede data import- export işlemleri kolaylıkla gerçekleştirebilir.
  5. Verinin ekranda ya da basılı bir eserde görüntülenebilmesine olanak veren geniş, grafiksel özellikler sunar.

R programlamanın kullanım alanlarına bakacak olursak; dünya çapında birçok veri bilimci tarafından sağlık, finans, otomotiv gibi alanlarda kullanılır. Örnek olarak Ford Motor Company, iş stratejisini ve gelecekteki tasarımlarını geliştirmelerine yardımcı olan ürün hakkındaki müşteri düşüncelerini analiz etmek için R’ı istatistiksel analizler için kullanır.
R yapay zeka mühendisleri ve veri bilimciler için en iyi programlama dilleri arasında gösterilir. Tahmin, kestirim, sınıflandırma gibi yaklaşımları ve makine öğrenmesi için gerekli algoritmalarını içeren kütüphaneleri(dplyr, magrittr, caTools, caret gibi) bünyesinde barındırır. R programlamadan kısaca bahsettik. Sizler de veri bilimci olma yolunda ilerliyorsanız R programlama dilini kısa zaman içinde öğrenebilir ve makine öğrenmesi problemlerinizde uygulayabilirsiniz. Bir sonraki yazımızda görüşünceye dek hoşçakalınız…

REFERANSLAR
https://www.r-project.org/about.html
https://atacangarip.wordpress.com/2016/10/20/r-dili-tarihcesi-ve-ozellikleri/
https://medium.com/datarunner/r-nedir-4375f53ba1d4
https://www.linkedin.com/pulse/r-yazilimi-datamining-machine-learning-nedir-datalab-tr/
https://www.mediaclick.com.tr/tr/blog/r-programlama-dili-nedi