Python ile Veri Analizi ve Görselleştirme – 2

Bir önceki yazımda kullandığım Iris veri seti üzerinde görselleştirme yapmaya devam ediyoruz. Veri görselleştirme için en sık kullanılan 2 adet kütüphane vardır. Bu kütüphanelerden matplotlib tıpkı benim bildiğim gibi birçok kişi tarafından bilinmektedir. Bunun yanı sıra 2. kütüphanemiz ise seaborn olmaktadır. Bu yazıda verilerin kütüphaneler yardımı ile görselleştirilmesine tanıklık edeceğiz.

🔐 Kullandığım Colab bağlantısı için linke girmeniz gerekmektedir.

Veri Görselleştirme Kütüphaneleri

1. Seaborn: Statistical Data Visualization Library ( İstatistiksel Veri Görselleştirme Kitaplığı )

Seaborn, Matplotlib tabanlı bir Python veri görselleştirme kitaplığıdır . Çekici ve bilgilendirici istatistiksel grafikler çizmek için üst düzey bir arayüz sağlar. Paketi nasıl indirebileceğinizi ve kullanmaya başlayabileceğinizi görmek için kurulum sayfasını ziyaret ediniz.

Seaborn

Matplotlib’ e göre farkı daha fazla özelleştirme seçeneğinin olması diyebiliriz.

Seaborn SamplesYukarıda yer verdiğim görselde Seaborn sayesinde verileri nasıl görselleştirebileceğimizi görmekteyiz. Birçok farklı grafik ve formlarda verilerimizi sergilememiz mümkün.

2. Matplotlib: Visualization with Python

Matplotlib; Python’da statik, animasyonlu ve etkileşimli görselleştirmeler oluşturmak için kapsamlı bir kütüphanedir.

Matplotlib Logo

Matplotlib orijinal olarak John D. Hunter tarafından yazılmıştır , o zamandan beri aktif bir geliştirme topluluğuna sahiptir. 

Seaborn Samples

Aynı şekilde burada verdiğim görselde ise Matplotlib ile yapılabilecek görselleştirme formları bulunmaktadır.

🧷 Matplotlib kitaplığındaki plot yani grafikleri incelemek için bağlantıya tıklayınız.

  • Line Plots ( Çizgi Grafikleri): İki değişken arasındaki ilişkiyi çizgiler halinde göstermektedir.

Line plots

  • Scatter Plots ( Dağılım Grafikleri ): İki değişken arasında var olan bu ilişkiyi isminden de anlaşılacağı üzere dağıtık noktalar halinde gösterilmektedir.

Scatter Plots

✨ Iris veri setinde yer alan değişkenlerin birbirleri ile olan ilişkisini ölçmek adına seaborn kütüphanesini kullanmak istedim.

Uploading Seaborn

Seaborn kütüphanesini projemize dahil ettikten sonra çeşitli parametreleri girerek grafiğin oluşmasını sağlamaktayız. Burada dataframe üzerinden sepal_length ve petal_width öznitelikleri arasındaki ilişkinin karşılaştırılmasını gerçekleştirdik. cmap değişkeni ise grafiğimizde kullandığımız renk paletinin belirlendiği değişkendir. İsteğe göre değiştirilebilmektedir. s değişkeni ise burada noktalar halinde verilen scatter grafiğindeki noktaların büyüklüğünü belirtmektedir.

Data Visulatizaton

Bir yazının daha sonuna gelmiş bulunmaktayız. Sağlıcakla kalın ✨

REFERANSLAR

  1. https://seaborn.pydata.org.
  2. https://matplotlib.org.
  3. Machine Learning Days | Merve Noyan | Data Visualization | Study Jams 2 |, https://www.youtube.com/watch?v=JL35pUrth4g&t=640s.
  4. Matplotlib, Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/wiki/Matplotlib.
  5. https://jakevdp.github.io/PythonDataScienceHandbook/04.02-simple-scatter-plots.html.
  6. https://jakevdp.github.io/PythonDataScienceHandbook/04.01-simple-line-plots.html.
  7. https://matplotlib.org/3.1.1/tutorials/colors/colormaps.html.

Python ile Veri Analizi ve Görselleştirme

Güzel bir günden daha merhaba! Bu yazıda sizler ile birlikte Python kodlamaya devam edeceğiz. Peki bugün neler yapıyoruz? En sevdiğim konulardan biri olan veri analizine birlikte deyineceğiz. Veri setinizi Kaggle veya UCI gibi veri sitelerinden temin edebilirsiniz. Bunların yanı sıra Iris Çiçek Veri Seti hakkında araştırma yapıp sizler için seçtim.

Iris çiçeği veri seti, İngiliz istatistikçi ve biyolog Ronald Fisher tarafından 1936’daki taksonomik problemlerde çoklu ölçümlerin kullanımı adlı makalesinde sunulan çok değişkenli bir veri setidir. Bazen Anderson Iris veri seti olarak adlandırılır çünkü Edgar Anderson, üç ilgili türün Iris çiçeklerinin morfolojik varyasyonunu ölçmek için verileri toplamıştır. Veri seti, üç Iris türünün (Iris Setosa, Iris virginica ve Iris versicolor) her birinden olmak üzere 50 örnekten oluşur.

Her numuneden dört özellik çıkarılmıştır:

    1. çanak yaprakları santimetre cinsinden uzunluğu
    2. çanak yaprakları santimetre cinsinden genişliği
    3. taç yapraklarının santimetre cinsinden uzunluğu
    4. taç yapraklarının santimetre cinsinden genişliği

Bu veri kümesi, destek vektör makineleri gibi makine öğreniminde birçok istatistiksel sınıflandırma tekniği için tipik bir test senaryosu haline gelmektedir.

Iris veri kümesi

Yukarıda gördüğünüz görsel Colab’da oluşturduğum not defteri içerisinde de yer almaktadır. Bu görselde veri setinden örnekler görmekteyiz. Yazının sonunda yer alan Colab linki üzerinden erişim sağlayabilirsiniz. Zaten veri bilimi alanında en sık ve temel olarak kullanılan veri setlerinden bir tanesi olarak literatürde yer almaktadır.

ADIMLAR

✨ Colab’ da gerekli kütüphaneler tanıtılmalı ve ardından klasör içerisinde yer alan veri setinin yolunun belirtilmesi gerekmektedir. Ardından veri seti içeriğini görmek için df değişkenini yazdırabilir veya ilk 5 satırına erişmek için df.head( ) komutunu kullanabilirsiniz.

Veri kümesini ve kitaplıkları içe aktarma

Veri Kümesini İncele

✨ Dilerseniz df.head( ) komutunu da çalıştırıp nasıl bir çıktı alacağız birlikte görelim.

Baş Komuta

✨ Yukarıda veri setinde yer alan özelliklerin değerlerine yer vermekteyiz. sepal_length ve petal_width gibi değişkenler numerical (sayısal) değişkenlerdir. Bir de bunun yanı sıra species olarak geçen çiçek türü özelliği ise categorical (kategorik) değişken olarak geçmektedir. Öncelikli olarak bu verilerin hangi değişken türüne girdiğini bilmekte fayda var.

⚠️ Eğer burada yer alan sayısal değişkenlerden (sepal_length ve petal_width arası özellikler) kategorik verinin yani çiçek türünün tahmini yapılmak isteniyorsa bu bir sınıflandırma problemidir.

✨ Pandas’ ın describe metodu ile tanımlayıcı istatistikler yazdırılmaktadır. Takip etmek isterseniz Pandas’ ın orijinal dokümanlarından erişebilirsiniz. Bu şekilde her özellik ne kadar veri içeriyorsa -kayıp verileri de görmemiz mümkün- bunun bilgilendirmesi yapılmaktadır. Özelliklerin standart sapması, ortalaması, minimum ve maksimum değerleri görülmektedir.

Describe Method

Örneğin bu veriler içerisinde sepal_length özelliği toplam 150000 satır ve bu değerlerin standart sapması ise yaklaşık olarak 0.83 olarak belirtilmiştir.

⏳ 25% ve 75% aralığı ise Quartile (Çeyrekler Aralığı) olarak bilinmektedir. Bu değerler kontrol edilerek verinin analizi yapılabilmektedir.

✨ Veri seti hakkında bilgi almak için ise df.info( ) komutu çalıştırılmalıdır.

Bu bilgilere göre boş değer olan satır bulunmamakta olduğunu görüyoruz. Bunların yanı sıra sayısal olarak var olan özelliklerin float tipine sahip olduğunun da bilgisine sahip oluyoruz.

df.isna( ) komutu veri setinde kayıp veri (Not a Number) olup olmadığını kontrol etmektedir. Kayıp verinin olduğu satırın ‘True’ olmasını beklemekteyiz. Ancak yukarıda gördüğümüz gibi kayıp verimiz bulunmamaktadır.

NaN Any

df.isna( ).any( ) komutu ise veri setinde kayıp veriler kontrol edilirken 1 adet bile kayıp veri içeriyor ise True olarak dönmektedir.

Not a Number Value

🖇 NOT: Yukarıda sözünü ettiğim Colab bağlantısı için bağlantıya tıklayınız.

Serinin 2. yazısında ise veri analizinde kalan ufak noktalara ve görselleştirme alanına deyineceğim. Sağlıcakla kalın ✨

REFERANSLAR

  1. https://pandas.pydata.org/pandas-docs/stable/index.html.
  2. https://www.kaggle.com/arshid/iris-flower-dataset.
  3. Machine Learning Days | Merve Noyan | Data Visualization | Study Jams 2 |, https://www.youtube.com/watch?v=JL35pUrth4g.
  4. https://www.kaggle.com/peterchang77/exploratory-data-analysis.

 

 

DeepMind-AlphaFold ve 50 Yıllık Protein Katlanması Problemine Çözüm

 

 

 

DeepMind-AlphaFold şema Geçtiğimiz günlerde Google AI şubesi  DeepMind  tarafından geliştirilen AlphaFold isimli yapay zeka (AI) ağı bilim dünyasının en büyük soru işaretlerinden birini daha çözüme kavuşturma yolunda büyük bir adım attı. Bu büyük soru işaretiyse  amino asit dizisinden yola çıkarak canlı yaşamının temelini oluşturan  protein moleküllerinin 3 boyutlu yapısının hesaplanıp hesaplanamayacağıydı.

 Deepmind-AlphaFold , Critical Assessment of Structure Prediction (Yapı Tahmininin Kritik Değerlendirmesi) yani kısaca  CASP olarak adlandırılan iki yılda bir yapılan protein yapısı tahmin yarışmasında yaklaşık 100 rakip takımı geride bırakarak mükemmele yakın bir başarı gösterdi. Proteinlerin yapısını bir atomun genişliği içinde tahmin edebilen bir derin öğrenme sistemi olan AlphaFold’un en son sürümü, biyolojinin en büyük zorluklarından birini aşmış bulunuyor.

 

Proteinler nasıl katlanır? Yaklaşık 50 yıldır bu soruya takılıp kaldık.  DeepMind ‘ın bunun için bir çözüm ürettiğini görmek, uzun süre bu problem üzerinde kişisel olarak çalışmış ve acaba cevaba varabilir miyiz diye merak eden biri için çok değerli.

PROFESÖR JOHN MOULT

CASP KURUCU KURUCU VE BAŞKANI

Şemada gösterilen protein moleküllerinde yeşil renkli alanlar proteinin doğadaki formunu,mavi renkli kısımlarsa AlphaFold tarafından hesaplanan yapılardır.

 

CASP’yi yürüten ekibin başındaki isim olan Maryland Üniversitesi’nden biyolog  John Moult, elde edilen bu başarıyı “Ciddi bir sorunu çözmek için yapay zekanın ilk kullanımı” sözleriyle özetleyerek  yapay zeka ve biyoloji dünyasının buluştuğu bu ortak noktanın önemini belirtti.

Peki yazının başından beri övgüyle bahsedilen AlphaFold’un bu başarısı neden bu kadar önemli? Evet, proteinler önemli moleküller; peki protein katlanmaları ve bu katlanmaların hesaplanması neden bu kadar önemli? Şimdi biraz bunlara değinerek AlphaFold’u daha iyi tanımaya çalışalım.

Kısaca Protein Nedir ?

Sözlük tanımına bakacak olursak eğer proteinler kendi yapıtaşları olan amino asitlerin zincir halinde birbirlerine bağlanması sonucu oluşan büyük organik bileşiklerdir.

Proteinler bütün canlıların vücudunda bulunan, neredeyse bütün metabolik olayların gerçekleşmesini sağlayan biyolojik yapılardır. Hücre zarının ve hemen hemen tüm enzimlerin yapısına katılma, birçok hormonda bulunma, temel yapıcı onarıcı aynı zamanda düzenleyici ve enerji verici olarak vücutta yer alma  proteinlerin görevlerine verilecek örneklerden sayılabilir.

Protein Katlanması Nedir?

Protein katlanma aşamaları ve yapıları

 

 

 

Proteine 3 boyutlu şeklini, yani işlevsel halini veren yapısındaki aminoasit dizilimidir. Doğada bulunan 20  çeşit aminoasit bir zincirdeki gibi  dizilerek proteinleri meydana getirir ve her bir protein için hangi çeşit aminoasitin hangi sırayla dizileceği DNA tarafından önceden belirlenmiştir.

Bir proteinin belirli bir vazifeyi yerine getirebilmesi için 3 boyutlu şeklinin de o vazifeye uygun olması, yani proteinin uygun şekilde katlanması gerekmektedir. Bu katlanma işlemi belli seviyelere ayrılarak incelenebilir.

Birincil Protein Yapısı

Bir proteinin birincil yapısı doğrusal amino asit dizisinden oluşur ve proteinin doğal yapısını belirler. Bu amino asit dizisi hücrede bulunan ribozom organeli tarafından sentezlenip düzensiz bir formda bulunmaktadır.

Birincil yapı oluşan ilk form olmasının yanında proteinin “üçüncül yapısı” olarak adlandırılan üç boyutlu yapısını büyük oranda belirlediği için büyük öneme sahiptir. Ancak, protein katlanması o kadar karmaşıktır ki; birincil yapıyı bilmek proteinin tamamlanmış formunu bilmemizi sağlamaz.

İkincil Protein  Yapısı

İkincil bir yapının oluşturulması, bir proteinin kendi doğal yapısını alması için katlama işleminin ilk adımıdır. Bu aşamada amino asit zinciri kıvrımlar yapar ve katlanmalara uğrar. Bu katlanma ve kıvrımlara ek olarak amino asitlerin yüzeyinde bulunan belirli kimyasal gruplar arasında kurulan hidrojen bağları bu yeni yapıya sağlamlık ve farklı şekiller  kazandırır. Birincil yapıdaki karmaşık ve düzensiz formda bulunan aminoasit zinciri bu aşamada daha düzenli ve organize moleküllere dönüşmüşlerdir.Şu ana kadar çeşitli ikincil yapı türleri belirlenmiştir fakat  en yaygın formlar alfa sarmal ve beta yaprak olarak bilinen  formlardır.

Üçüncül Protein Yapısı

Sıradaki üçüncül yapı, tek bir protein molekülünün üç boyutlu yapısıdır. İkincil yapının formları olan alfa sarmal ve beta yapraklar kompakt bir yapı oluşturacak şekilde katlanırlar. Bu katlanma hidrofobik etkileşimler (hidrofobik kalıntıların sudan uzaklaştırılması) tarafında yönlendirilir ama yapının stabil olabilmesi için spesifik üçüncül etkileşimlerle (tuz köprüleri, hidrojen bağları, disülfür bağları ve yaz zincirlerin sıkı istiflenmesi gibi) çeşitli kısımlarının yerinin sabitlenmesi gerekir ki moleküler organizasyon daha düzenli bir hale geçebilsin.

Dördüncül Protein Yapısı

Birkaç protein veya uzunlu kısalı amino asit zincirlerinin  (bu bağlamda bunlara protein altbirim denir) bir araya gelmesinden meydana gelen büyük bir toplaşmadır. Dördüncül yapı, üçüncül yapıyı stabilize eden, kovalent olmayan bağlar ve disülfür bağları gibi etkileşimler tarafından stabilize edilir. Çoğu proteinin dördüncül yapısı yoktur ve monomer olarak işlev görürler.

 

Protein Katlanmasının Önemi Nedir?

Protein katlanmasını temsil eden animasyon

 

Bir önceki bölümde proteinlerin işlevsel hale gelme sürecinde geçirdiği yapısal değişimlerden konuştuk. Özetleyecek olursak bir protein, birçok karmaşık bükülme, dönme ve dolanma ile kendisini katlayan bir amino asit şeridinden  veya bu şeritlerin birleşmesiyle meydana gelir. Bu yapı ne yapacağını belirler. Proteinlerin ne yaptığını anlamak, yaşamın temel mekanizmalarını, ne zaman işe yarayıp ne zaman yaramadığını anlamanın en önemli adımıdır. Bunu anlayabilmek için de amino asit diziliminin nasıl olacağından katlanma şekillerinin belirlenmesine kadar ki sürecin temelini oluşturan DNA büyük önem taşımaktadır.

DNA okumasıyla canlı vücudundaki proteinlerin işleyişinin beklenen şekilde olup olmayacağı hakkında bir ön bilgi edinebiliriz. Aynı zamanda protein katlanmaları yani diğer bir değişle proteinin hangi işleve uygun olduğu hakkında bir tahminde bulunabilmemiz mümkün olabilir.

Bu öngörü sayesinde şu an küresel sağlık sorunu olarak görülen Alzheimer gibi protein birikmesi sonucu beyni tahrip eden hastalıkların altında yatan nedenleri ve bu nedenler doğrultusunda uygun tedavi yöntemleri geliştirilebilir. Bir başka örnek olarak erken tanı koymaya engel olabilecek kadar az semptom gösteren çeşitli kanser türlerini tespit etmek için belirlenen yöntemleri daha da duyarlı hale getirerek ön tanıyı mümkün kılabilir. Ya da  canlılığın gezegenimizin üzerinde nasıl başladığına dair yürütülen çalışmaların hızlanmasına ve aydınlatılmasına yardımcı olabilir.

Protein Katlanması Sorunu(AlphaFold)

Protein Katlanması Probleminin Şeması

 

Proteinin yapısından , katlanmasından ve bu yapıların önceden tahmin edilebilmesinin neden önemli olduğunu  konuştuk. Şimdi de protein katlanmasının önceden tahmin edilebilmesinin neden bilim dünyasının uğraştığı en büyük soru işaretlerinden biri olduğuna bakalım.

1972 Nobel Kimya Ödülü’nü kazanan Christian Anfinsen, teorik olarak bir proteinin amino asit dizisinin aynı proteinin yapısını tam olarak belirlemesi gerektiğini öne süren bir hipotez öne sürmüştü. Bu hipotezin ortaya atılmasıyla birlikte yalnızca amino asit dizisine (birincil yapı) dayalı olarak bir proteinin 3 boyutlu tamamlanmış yapısını hesaplamalı olarak tahmin edebilmek için yaklaşık elli yıl sürecek olan bir arayış ateşlenmiş oldu. Bu arayış büyük ilerlemelerle beslenerek devam etti. Kriyo-elektron mikroskobu (2017 yılındaNobel Kimya Ödülüyle ödüllendirilmiştir) , nükleer manyetik rezonans ve x-ışını kristalografisi gibi çözüm yolları bu arayışta öncü olmuşlardır.

Levinthal's paradoksu ve çözümü hakkında bir şema

Karşı karşıya kalınan problemse hala bilim dünyasını zorlayan bir yerdeydi : bir proteinin tamamlanmış 3 boyutlu yapısına ulaşırken teorik olarak katlanabileceği yolların sayısı astronomik sayılarla tanımlanıyordu. 1969’da Cyrus Levinthal, tipik bir proteinin tüm olası konfigürasyonlarını kaba kuvvet hesaplamasıyla sayma işleminin bilinen evrenin yaşından daha uzun süreceğini belirtti .Levinthal ayrıca tipik bir protein için 10 ^ 300 olası konformasyon olduğunu tahmin etti. (Levinthal paradoksu)

Canlı yaşamı ve protein bağlantısının şeması

 

Ayrıca yaklaşık 200 milyon bilinen proteine ek olarak her yıl 30 milyon tane daha keşfedilmekteydi. Ve bu yeni, eski bilene proteinlerin 10 ^ 300 (en az) konformasyon seçeneği bulunmakta. Kullanılan yöntemlerin çok pahalı ve aşırı yavaş olması bu kadar fazla olasılığa sahip problemin çözümünde istenen verimin alınmasını engelliyordu.

İşte bu bahsedilen 50 yılı aşkın bir süredir var olan sorun ve zorlukların bütününe bilim dünyası tarafından protein katlama problemi ismi verilmişti  – taki Deepmind-AlphaFold devreye girinceye kadar.

 

Deepmind-AlphaFold ve Getirdiği Çözüm

 

CASP Nedir?

Yapay zeka destekli çözümün detaylarına geçmeden önce yazının başında bahsi geçen CASP yani Yapı Tahmininin Kritik Değerlendirmesi yarışmasından biraz bahsedelim.

AlphaFold ve aminoasit dizilimi diyagramı

 

CASP, kurucusu olan Profesör John Moult önderliğinde iki yıllık aralıklarla  düzenlenen bir yarışma.

CASP komitesi yarışmaya katılan yapı tahmin programlarını değerlendirmek için çok yakın zamanda deneysel olarak belirlenmiş ( hatta hala değerlendirilme aşamasında bulunan) protein yapılarını seçer. Ve bu seçimleri kamuoyuyla paylaşmazlar. Yani katılımcıların proteinlerin yapısını körü körüne tahmin etmeleri gerekmektedir. Tahmin işlemi sonlandıktan sonra CASP komitesi tahmin sonuçlarıyla deneysel sonuçları karşılaştırarak değerlendirmeye alır.

CASP tarafından tahminlerin doğruluğunu ölçmek için kullanılan ana ölçü, 0-100 arasında değişen Küresel Mesafe Testidir (GDT). Profesör Moult’a göre, 90 GDT civarında bir puan alan yapı tahmin programı gayri resmi olarak deneysel yöntemlerden elde edilen sonuçlarla örtüşme kabiliyetine sahiptir.

(CASP-14 Modellemeleri için tıklayınız)

Ve Kazanan : Deepmind-AlphaFold!

Ana Yapay Sinir Ağ Modeline Genel Bir Bakış

 

DeepMind tarafından geliştirilen AlphaFold protein yapısının tahminlerini gerçekleştiren bir yapay zeka programıdır. AlphaFold’un son sürümü bu sene katıldığı CASP14 (Yapı Tahmininin Kritik Değerlendirmesi) yarışmasının sonuçlarına göre şu an alanının en başarılı yapay zeka programı.  AlphaFold tüm hedeflerde genel olarak 92.4 GDT medyan puanına ulaşmıştır. Tahminlerinde (bir atomun genişliğiyle karşılaştırılabilecek kadar küçük olan 0.16 nanometre) 1,6 Angstromluk  ortalama hataya sahip olan AlphaFold yarışmanın en zorlu modelleme kategorisinde yer alan serbest modelleme alanında bile 87.0 GDT’lik   bir puana ulaşmıştır.  (Yarışmanın sonuçları burada paylaşılmıştır.                                                                                                                                  

Serbest modelleme kategorisindeki modellerin yıllara göre GDT puan grafiği.

 

AlphaFold’un yakaladığı bu doğruluk oranları neredeyse kriyo-elektron mikroskobu gibi proteinlerin yapısını haritalamak için geliştirilen laboratuvar tekniklerinin ölçümleriyle birebir. Ama arada açık ara AlphaFold’un önde olduğu bir avantaj bulunmakta: hız. Bahsettiğimiz laboratuvar teknikleri çok pahalı ve aynı zamanda çok yavaş. Bu karşılaştırmayı daha iyi anlamak için bir karşılaştırma yapabiliriz. Laboratuvar yöntemlerinin her protein modelini hesaplayarak doğru sonuca ulaşması  yıllarca deneme yanılma gerektirebilir ; Deepmind-

AlphaFold ise sadece birkaç gün içinde bir proteinin şeklini bulabilir.

 

Yapay zeka ve getirdiği çözümler

AlphaFold  CASP yarışmasına ilk kez 2018’de katılmıştı. İki yıl önce 13.kez düzenlenen CASP’de  en yüksek tahmin puanını alan yine AlphaFold olmuştu. Ekip bir önceki AlphaFold sürümünün eksik yönlerini tespit ederek bu alanlara yoğunlaşarak başarılarını bir üst seviyeye çıkartmış bulunuyor.

AlphaFold’un son sürümünün eğitim sürecinde kullanılan veri tabanı yaklaşık 170.000  bilinen ve bilinmeyen yapıdaki protein dizilerini içeriyor. Ekibin resmi internet sitesi üzerinden yayınladığı son yazıya göre AlphaFold’un son sürümü hakkında daha detaylı bilgileri ve incelemeleri içeren makale hazırlık aşamasında bulunuyor. (AlphaFold ekibinin CASP13-2018 sonunda yayınladıkları inceleme için tıklayabilirsiniz.)

Yapay Zeka Işığında Gelecek

Protwin ktlanması ve çözüm anahtarı olan AlphaFold diyagramı

 

Bugüne kadarki en önemli yapay zeka ilerlemelerden biri  olan Alphafold hala ilerlemeye, kendini geçmeye devam ediyor. Ancak tüm bilimsel araştırmalarda olduğu gibi, hala cevaplanmayı bekleyen birçok soru var. Birden çok proteinin nasıl kompleks oluşturduğu  veya %100 doğru bir modellemenin nasıl yapılacağı hakkında öğrenilecek çok şey var.

Deepmind-AlphaFold, modellemesi bilinmeyen yüz milyonlarca proteini  keşfetme potansiyeliyle bilinen hastalıkların anlaşılmasını hızlandırmanın yanı sıra gelecekte yeni bir salgına karşı da  yararlı olabileceğine dair umut veriyor.

 Coronavirus-19

 

Hatta içinde bulunduğumuz pandemi günlerinin başlarında yapıları daha önce bilinmeyen  SARS-CoV-2 virüsünün birkaç protein yapısı ve CASP14’te, başka bir koronavirüs proteini olan ORF8’in yapısı AlphaFold tarafından tahmin edilmişti.

 

Deepmind-AlphaFold ve Akla Bile Gelmeyeni Bilmeye Doğru

 

“DeepMind on yıl önce işe koyulduğunda, yapay zekanın temel bilimsel problemler konusundaki anlayışımızı ilerletmesi için bir araç görevi göreceğini umuyorduk. Şimdiyse AlphaFold’u geliştirmeye yönelik 4 yıllık çabanın ardından çeşitli alanlara yönelik çalışmalarla  birlikte vizyonun gerçekleştiğini görmeye başlıyoruz.”

Bu sözler bizzat DeepMind-AlphaFold ekibine ait.

Christian Anfinsen yıllar önce öne sürdüğü hipotez üzerinde çalışmalarına devam ederken belki bu ilerlemeyi hayal bile edememişti. Bu açıklanan ilerleme, yapay zekanın bilginin sınırlarını genişletmede insanlığına en yararlı araç olacağını gösteriyor.

Astrobiyoloji, tıp, zooloji, mikrobiyoloji…Canlılıkla, yaşamla alakalı her alanda insanlığın bu zamana kadar bildikleri AlphaFold gibi örneklerle hızla ilerleyen yapay zeka sayesinde yeniden şekillenecek.

The Future Of Artificial Intelligence - eLearning Industry

Yapay zeka ve gelecek

 

Evrenimizin bilinmeyen birçok yönü var. Buna rağmen bir yerlerde veri kümeleri tekrar derleniyor, eğitim ve test setleri belirleniyor, yapay zeka modelleri çalışmaya başlıyor ve evrenin bilinmezlikleri biraz daha çözülüyor.

Gelecek gerçekten de heyecan verici!

 

 

Kaynakça

Callaway, E. (2020, Kasım 30). ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures. Nature: https://www.nature.com/articles/d41586-020-03348-4 adresinden alındı

DeepMind. (2020, Kasım 30). AlphaFold: a solution to a 50-year-old grand challenge in biology. DeepMind: https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology adresinden alındı

DeepMind. (2020, Ocak 15). AlphaFold: Using AI for scientific discovery. DeepMind: https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery adresinden alındı

Dursunkaya, B. (2012, Aralık 16). İkincil Protein Yapısı. Evrim Ağacı: https://evrimagaci.org/ikincil-protein-yapisi-5633 adresinden alındı

Heaven, W. D. (2020, Kasım 30). DeepMind’s protein-folding AI has solved a 50-year-old grand challenge of biology. MIT Technology Review: https://www.technologyreview.com/2020/11/30/1012712/deepmind-protein-folding-ai-solved-biology-science-drugs-disease/ adresinden alındı

Hutson, M. (2019, Temmuz 22). AI protein-folding algorithms solve structures faster than ever. Nature: https://www.nature.com/articles/d41586-019-01357-6 adresinden alındı

Vikipedi. (2020, Aralık 6). Protein yapısı. Vikipedi: https://tr.wikipedia.org/wiki/Protein_yap%C4%B1s%C4%B1#:~:text=D%C3%B6rd%C3%BCnc%C3%BCl%20yap%C4%B1%20birka%C3%A7%20protein%20veya,dis%C3%BClf%C3%BCr%20ba%C4%9Flar%C4%B1%20taraf%C4%B1ndan%20stabilize%20edilir. adresinden alındı

Görseller

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery

https://deepmind.com/research/case-studies/alphafold

https://elearningindustry.com/future-of-artificial-intelligence-amazing-applications

https://www.researchgate.net/figure/Solution-of-Levinthals-paradox-in-Levinthals-terms-was-obtained-at-the-level-of-the_fig4_323224404

https://www.nature.com/articles/d41586-020-03348-4

Değişken Seçimi Hakkında Temel Bilgiler

Hayatımızın artık her yerinde aktif olarak denk geldiğimiz yapay öğrenme, derin öğrenme ve yapay zeka konuları, herkesin üzerinde çalışmalar gerçekleştirdiği, yapılan tahminlerin başarı skoru ile ölçüldüğü bir durum söz konusudur. İş süreçleri içerisinde, yapay öğrenme konusu kritik bir öneme sahiptir. Hazır olarak elinizde bulunan ya da bizzat firma tarafından toplanılarak Değişken Mühendisliği evresine gelen veri, birçok konudan özenle incelenerek son duruma hazırlanıp Veri Bilimci olarak çalışan kişinin önüne götürülür. O da veriyi anlamlaştırarak firma için veriden çıkarsama yapabilir. Böylece geliştirilen ürün ya da hizmet müşteriye sunularak test edilir ve gerekli başarı parametrelerini sağlarsa, ürünün performansını sürdürülebilir kılabiliriz. Burada en önemli basamaklardan birisi, ortaya çıkartılan ürünün ölçeklenebilir olması ve iş süreçlerine adaptasyon evresinin hızlı şekilde ayarlanmasıdır. Bir diğer olay ise korelasyon ile belirlenen değişkenlerin önem derecelerini veri seti içerisinden elde etmek, bunu anlamlı hale getirip modelleme evresi öncesinde Değişken Mühendisi sayesinde belirlemektir. Değişken Mühendisleri, Veri Bilimci’nin iş sürecini hızlandırıp ona kolaylık sağlayan bir ek güç olarak düşünebiliriz.

 

 

İş arama durumunda sık sık karşımıza çıkabilen bir ‘Değişken Mühendis’ ilanı ile karşılaşılabilir. Veri içinden öğrendiğimiz kritik bilgileri, veri hazırlama aşamasında değişken seçimi işlemi sırasında elde edebiliriz. Özellik seçme yöntemlerinin, hedef değişkeni tahmin etmek için girdi değişkenlerinin sayısını bir model için en yararlı olduğuna inanılanlara indirmesi amaçlanır. Değişken seçim işlemleri, veri ön işleme süreçleri içerisinde bulunurken mantıklı bir şekilde belirlenmesi durumunda iş yükünü olabildiğince azaltarak, çalışanlara büyük oranda kolaylık sağlar. Bunun için özel bir iş alanı mevcut olduğunu belirtmiştim. Değişken seçim durumları, verinin modelleme konusundaki başarısını da etkileyerek tahmin edilecek değerlerin başarısının ne derece olacağına direkt olarak etki eder. Bundan ötürü, ilk veriyi ele aldığımızdan ürün aşamasına kadar geçen olayların içerisindeki en önemli kısım, burada çalışan insanın değişken seçimine doğru karar vermesinden geçer. Gidişatın olumlu geçmesi, ortaya çıkacak ürünün kısa süre ile hayata geçmesini sağlar. Veriden istatistiksel çıkarımlar yapmak, hangi verinin ne derece önemli olduğunu algoritmalar aracılığıyla belirlemek kadar önemlidir. İstatistik bilimi, genel olarak veri bilimi süreçlerinin bünyesinde rol almalıdır.

 

 

İstatistiksel filtre ile belirlenecek değişken seçim yöntemleri de vardır. Bunlara değişken seçimleri içerisinde farklılık gösteren ölçekleri örnek verebiliriz. Bu alanda çalışan insanların çoğu, istatistiksel önem düzeylerini maalesef yeterince önemsemiyorlar. Veri Bilimi ve Yapay Zeka üzerine çalışan bazı kişiler içerisinde de sadece kod yazmak, bu işin temeli olarak görülüyor. Veri seti için değişkenlere kategorik ve numerik değişken örneklerini verebilirim. Ek olarak, bu değişkenler de kendi bünyesinde ikiye ayrılmaktadır. Numerik olarak gördüğümüz değişken, integer ve float olarak biliniyorken, kategorik olarak gördüğümüz değişkenler; nominal, ordinal ve boolean olarak bilinmektedir. Bunu en temel olarak aşağıda koyduğum görselde bulabilirsiniz. Değişken seçimi için bu değişkenler, kelimenin tam anlamıyla hayati öneme sahiptirler. Yapılan işlemler doğrultusunda bu değişkenlere değerlendirme aşamasında bir İstatistikçi ile birlikte karar verilebilir ve seçilen değişkenlerin analizi sağlam temellere dayanan şekilde yapılmalıdır. Bu alanda çalışanların en gerekli özelliklerinden birisi yorumlayıp iyi bir şekilde analiz yeteneğine sahip olmalarıdır. Bu sayede, hazırladıkları verileri temelleri mantıkla eşleşen halde ürün şeklinde rahatlıkla sunabilirler.

 

 

Neredeyse tam olarak en doğru metot bulunmamaktadır. Her veri seti için değişken seçimi iyi bir analizle değerlendirilmektedir. Çünkü yapılan işlemler, her bir değişken için değişkenlik gösterebilir. Yani, bir veri seti çok fazla integer ya da float değer barındırırken, üzerine çalıştığınız bir diğer veri seti ise boolean olabilir. Bundan ötürü değişken seçimi yöntemleri her veri seti için farklılık gösterdiği durumlar olabilir. Önemli olan konu, hızlı bir şekilde adapte olup veri setinin bize ne sunduğu anlayarak ona göre çözümler üretmek olabilir. Bu yol ile birlikte, yapılan işlemler boyunca alınan kararların daha sağlıklı bir şekilde devam etmesi mümkün olur. Kategorik değişkenler, ki kare testi gibi yöntemlerle belirlenebilir hatta bu yöntem daha güçlüdür ve verim oranı haliyle daha yüksek noktalara erişebilir. Ürün veya hizmet geliştirme aşamaları boyunca değişken seçimi, bir modelin başarı kriterleri içerisinde katkı sağlayan en mühim aşamadır.

 

References:

http://globalaihub.com/basic-statistics-information-series-2/

http://globalaihub.com/temel-istatistik-tanimlari-ve-aciklamalari/

https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/#:~:text=Feature%20selection%20is%20the%20process,the%20performance%20of%20the%20model.

https://www.istmer.com/regresyon-analizi-ve-degisken-secimi/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

 

Öksürük Sesinden Koronavirüs Tespiti

Toplumumuz gibi diğer tüm dünya ülkelerini etkisi altına almış olan Koronavirüs hız kesmeden can almaya devam ediyor. İçinde bulunduğumuz süreçte virüsle savaşmak güç olmaya başlamış durumda. Her gün artan vaka sayısının tedbirsizlikle ve alınan önlemlerin yetersizliği ile doğru orantılı olduğu gözler önünde iken maske takmama konusunda inatçı vatandaşların ya da Covid pozitif olduğundan bir haber olan insanlar için çözümü ABD´de Massachusetts Teknoloji Enstitüsü (MIT) uzmanları buldu. ,yapay zeka teknolojisiyle birlikte geliştirdikleri model ile öksürük sesinden hastalık belirtisi göstermeyen insanların tespitini yapacaklarını duyurdu.

 

Peki Nedir Bu Yapay Zeka Modeli?

Covid 19 ile enfekte olmuş kişilerin bir kısmı asemptomatik olarak tanımlanırlar yani virüse dair fiziksel bir belirti, semptom taşımadan hastalığı geçirirler. Belirti taşımayan insanların test yapma olasılığı düşük olacağı için farkında olmayan pozitifli hasta, virüsü başka bir insana geçirebilir. Bu olasılığın yüzdesinin fazla olduğunu ve sonucunda ölümün kaçınılmaz olduğunu savunan MIT araştırmacıları, asemptomatik kişilerdeki görülen öksürüğün sağlıklı bir bireyin öksürüğünden farklı olduğunu tespit ettiler. Bu keşfedilen farklılığın,insan kulağı tarafından belirlenemeyeceğini ancak yapay zeka destekli bir modelin buna çözüm olabileceğini düşünüp bir model geliştirdiler.

Geliştirilen model için gönüllü insanlar bulunup, onların kaydetmiş olduğu öksürük sesi örneği ve kelime sesleri üzerinde model eğitildi. Eğitilen model, Covid 19 pozitifli insanların yüzde 98,5’ini, asemptomatik Covid-19 hastalarının yüzde 100’ünü doğru bir şekilde tespit etti ve böylece modelin yüzde 95 başarı oranı gerçekleşmiş oldu.

Ekip, modeli kullanıcı dostu bir uygulamaya dahil etmek için çalışıyor; model FDA onaylıysa ve büyük ölçüde kullanılmaya başlanırsa, korona virüs için asemptomatik olma ihtimali yüksek olan kişilerin kullanımı ücretsiz, kullanışlı bir ön tarama aracı olabilir. Bu kullanıcı telefonuna indirdiği bu uygulamayla her gün telefonuna öksürüp, virüsü taşıyıp taşıyamadığını öğrenebilir dolayısıyla bu yöntem resmi bir testin onayına tabiidir.

MIT’nin Auto-ID Laboratuvarı’nda araştırmacı bilim insanı olan ortak yazar Brian Subirana, “Bu grup teşhis aracının etkili bir şekilde uygulanması için bir sınıfa, fabrikaya veya restorana gitmeden önce kullanılırsa, salgının yayılması azaltılabilir.” Açıklamasında bulundu.

Pandeminin başlangıcı olan günlere baktığımızda, birçok araştırmacı aslında bu konunun etrafında dolaşıyordu ama hiç hayata geçen bir proje olmamıştı. Daha önceleri de araştırmacılar, zatürre ve astım gibi durumları doğru bir şekilde teşhis etmek için öksürük kayıtları üzerine algoritmalar eğitiyordu. Aynı işlemleri tekrar eden MIT ekibi de sadece hafızadaki bilgilerin kaybı değil, zayıflamış ses tellerin de görülen zayıflığı da nöromüsküler bozulmayla ilişkilendirip, alzheimer hastalığı üzerinde çalışmalar yapmıştı. Alzheimer hastalığının belirtilerini tespit edip edemeyeceklerini görmek için zorunlu öksürük kayıtlarını analiz ederek AI modelleri geliştiriyordu.

Öncelikli olarak, farklı derecelerde vokal kord gücü ile ilişkili sesleri ayırt etmek için ResNet50 olarak bilinen, genel bir makine öğrenme algoritması veya sinir ağını eğittiler. Daha önce yapılmış araştırmalarda insan duygusu olarak gösterilen ‘Hmmm’’ sesinin kalitesinin, bir kişinin ses tellerinin ne kadar zayıf veya güçlü olduğunun bir göstergesi olabileceğini göstermişti. Araştırmacılar, “onlar” kelimesini “o” ve “o zaman” gibi diğer kelimelerden ayırmak için sinir ağını 1000 saatten fazla konuşma içeren bir sesli kitap veri seti üzerinde eğitti.

Ekip konuşmada en belirgin olarak görülen duygusal ifadelerin ayırt edilebilmesi için ikinci bir sinir ağından destek almak zorunda kaldı çünkü Çünkü Alzheimer hastalarının (ve daha genel olarak nörolojik düşüşü olan kişilerin) mutluluklarını ifade etmekten çok üzgün oldukları, acı çektikleri, hayal kırıklığa uğradıklarını gösteren duyguları sergiledikleri görüldü. Bu deneyin üzerine araştırmacılar sakin, mutlu, huzurlu, nötr gibi duygusal ruh hallerini canlandıran bir veri kümesi oluşturarak, bir duyarlı konuşma sınıflandırıcı modeli geliştirdiler.

Ardından üçüncü sinir ağına ihtiyaç duyan araştırmacılar, akciğer ve solunum performansındaki değişiklikleri ayırt etmek için bir öksürük veri tabanı üzerinde yeniden bir sinir ağını eğitti.Son olarak ekip eğitmiş olduğu üç modelide birleştirerek kas zayıflamasını tespit etmek için bir algoritma yerleştirdi. Aslında algoritma bu işlemi, işittiği gürültüyü simüle ederek, güçlü öksürükleri (gürültü üzerinden duyulabilenleri) daha zayıf olanlardan ayırt ederek yapıyor.

Tüm bunların sonucunda ekip, Al desteğiyle, alzheimer hastalığı dahil olmak üzere, ses kayıtları üzerinde denemeler yaparak bunu geliştirdi ve alzheimer’in örneklerini mevcut modellerden daha iyi belirleyebileceğini göstermiş oldu. Elde edilen verilen doğrultusunda, ses teli gücü, duygu, akciğer ve solunum performansı ve kas bozulması ile birlikte hastalığın teşhisinde etkili belirteçler olduğunu gösterdi.

Aynı ekip nisan ayında, alzheimer, astım, zatürre ve Covid 19 pozitifli hastalardan on binlerce öksürük numunesi topladı. İnsanların web tarayıcısına sahip herhangi bir araçtan, bu telefon olabilir, tablet,dizüsüstü bilgisayar olabilir, öksürüklerini kaydedebilecekleri bir internet sitesi kurdular. Uygulamaya katılan katılımcılar, bu uygulamanın deneme amaçlı olup, herhangi bir doktor kontrolü veya test dahilinde olmadığına dair bir anket doldurdular. Çünkü yaptıkları bu uygulama henüz yasallaşmamış olduğu için verilen sonuçlarda tamamen deney üzerine kurulu, başarı oranı 95 e yakın olmuş olsa bile. Aynı zamanda anketin içeriğinde kullanıcıların daha önce geçirmiş olduğu hastalıklar, yaşadıkları coğrafi konum, cinsiyetleri gibi ayırt edici özellikler vardı.

         

 

Bugüne kadar araştırmacılar; her biri birkaç öksürük içeren, yaklaşık 200.000 zorla öksürük ses örneğine karşılık gelen 70.000’den fazla kayıt topladı. Araştırmacılarında kanıtladığı üzere bu zamana kadar yapılmış en kapsamlı ve belirleyici öksürük veri setine sahip bir araştırma oldu.Asemptomatik olanlar da dahil olmak üzere Covid-19 olduğu doğrulanan kişiler tarafından yaklaşık 2.500 kayıt sunuldu.

Ekip, topladıkları verileri dengelemek için kayıtlardan rastgele seçtikleri 2.500 kayıt ile birlikte Covid ile ilişkili 2.500 kaydı kullandı. AI modelini eğitmek için bu örneklerden 4.000’ini kullandılar. Kalan 1000 kaydı da daha sonra Covid hastalarının ve sağlıklı bireylerin öksürüklerini doğru bir şekilde ayırt edip edemeyeceğini görmek için model geliştirildi.

Temmuz ayında İngiltere’nin Cambridge kentindeki ‘Covid-19 Sesler Projesi’nde, nefes ve öksürük seslerinin birleşimine dayanarak, pozitif koronavirüs vakalarının yüzde 80 oranında başarıyla tespit edildiğini açıklamıştı.Uygulamanın geliştirildiği takdirde virüsün yayılma hızının,yayılma oranın düşeceği kaçınılmaz bir gerçek olduğu ispatlanmış oldu.

REFERANSLAR:

https://haberglobal.com.tr/dunya/yapay-zeka-oksuruk-sesiyle-kovid-19-hastasini-boyle-tespit-etti-77528

https://onedio.com/haber/oksuruk-sesinden-yuzde-100-isabet-koronavirus-teshisi-koyan-yapay-zeka-gelistirildi-940627

https://www.ntboxmag.com/2020/10/29/yapay-zeka-modeli-cep-telefonuyla-kaydedilen-oksurukler-sayesinde-asemptomatik-

 

 

Kredi Skorlama / Kredi Analizi

Her şirketin yatırım yapacağı ya da finans anlamında gelişim konusunda yardımcı olacağı belirli start-up’lar mevcuttur. Belirli analizler sonucu, yatırımcı firma yatırım yapacağı ve bünyesine alacağı firmayı belirler. Bu sayede gelişimi göz önüne alarak, getiri ile doğru orantılı olarak sağlayacağı katkı miktarı önceden hesaplanır. Bankalarda da müşterileri arasında bu tarz bir analiz yöntemi gelişmiştir. Kısaca banka ile müşteri arasında kredi başvurusunda kredi skorlama işlemleri yapılmaktadır. Bunun yapılma amacı temelde insanlar aslında alacağı krediyi öder mi ya da ödeyebilecek mi diye testler ile değerlendirilir. Buna makine öğrenmesi konusunda kredi skorlama denmektedir. Yapılan işlemler sonrası, krediye başvuran kişiye olumlu ya da olumsuz bir geri dönüş yapılmaktadır. Bu doğrultuda değerlendiren birçok metrik bulunmaktadır. Bunlara örnek olarak; insanların aldıkları maaş miktarı, kariyer geçmişi, daha öncesinde kredi alma durumları ve bunun gibi birçok daha detaylı olarak incelenecek olan özellikler bulunmaktadır. Bunların değerlendirilmesi sonucu, oluşacak olan 1 ve 0 değerleri bize olumlu ya da olumsuz anlam vermektedir.
 

 
Bankaların çoğu konuda olduğu gibi bu konuda da geniş çaplı araştırma yaparak, sahip oldukları verileri analiz ettikten sonra makine öğrenmesi işlemlerine sokmaktadır. Bu işlemler sonucunda, mantık sınaması adımları üzerinde duruma göre birkaç optimizasyon işlemleri yapıp son model hali hazırlanır. Ardından bu durumlar hızlanarak hemen her kredi başvurusu yapan insanlar için test edilir. Değer olarak ise 0 ve 1 değerleri atanır. İşlemler sonucunda 0 çıktısı bize, ‘bu kişiye kredi vermemizi önermez’ tam tersi yani 1 çıktısı geldiğinde ise ‘bu kişiye kredi verebilirsiniz’ diyerek bize müşteri segmentasyon işlemini de yapmış olur. Son adım da veri bilimi kadrosu sayesinde hallolduktan sonra, bizim için geriye kalan son adım ise bu bilgileri gerekli departmanlara ileterek, çıkan sonuçlara göre kişilerin başvurularını sonuçlandırarak, geri dönüş yapmak kalır. Analizlerin önemi, bir banka için kritik bir öneme sahiptir. Çünkü yapılan en ufak hatalar, yüklü miktarların kayıplarına sebep olabilmektedir. Bu sebeple yapılan her kredi skorlama işlemi, bankaya olumlu şekilde dönmelidir.
 
 

 
Kredi skorlama işlemleri, her banka için büyük önem taşımaktadır. Kasadan çıkan paranın miktarı ve kredi verilecek kişinin sorumluluğunu tamamen yerine getirmemesi, maddi anlamda büyük sorunlara yol açacaktır. Bundan ötürü arka tarafta çalışan veri bilimi ekibi, bu konuda uzman olmalı ve tedbirleri her koşula göre değerlendirmelidir. Buna ek olarak, insanların kişisel bilgilerini de iyice analiz edip başvurusuna mantıklı bir dönüş yapılmalıdır. Veri ön işleme adımlarını düzenleyip gerekli değişkenlerin üzerinden yapılan işlemler sonrası, süreç biraz daha verinin hazır hale getirilmesiyle alakalıdır. Kredi skorlama konusunda kritik derecede öneme sahip olan bir diğer mühim konu, veri ön işleme adımları ve sonrasında atılacak analiz adımlarıdır. Veri Bilimi ekibi, değişken mühendisliğini de kendileri yaparak değişken etkilerini ve onların korelasyonlarını aralarında oluşan bağları da doğru bir şekilde analiz etmelidir. Bu işlemler sonrasında ise, mantıklı bir sonucun ortaya çıkması kaçınılmaz olacaktır. Hata payını minimum yapmak, tamamen veriyi mükemmele yakın bir şekilde ayarlamak ve gerekli parametreleri değerlendirmektir.
 

 
Kredi skorlaması yapmak için gerekli işlemlerin en başında makine öğrenmesi algoritmasının oluşturulması ve model öncesi, değişkenlerin bir kere daha kontrol edilmesi gereklidir. Çünkü yapılan işlemlerin tamamen değişkenler ile bağlantısı vardır. Bundan dolayı, kategorik ya da numerik değişkenlerin modele etkisi farklılık göstermektedir. Ayrıca bu modeli kurarken de dikkatli şekilde ayarlanması gerekmektedir. Kullanacak olduğumuz parametrelerin özel olarak Python programlama dili kullanılıyorsa, içerisinde bulunan GridSearchCV() metodu sayesinde, parametreler denenebilir ve sonrasında en uygun parametreler modelin içerisine entegre edilir. Böylece kredi skorlama konusunda daha başarılı bir şekilde yol alabilir. Bu da verilen hizmetin seviyesini arttırır ve bu sayede insanların beklentilerini karşılayabilir, onlara uygun şekilde kişiye özel bir hizmet sağlanabilir. Memnuniyet seviyesi üst düzey olan kişiler, banka ile olan bağını geliştirir. Ek olarak, psikolojik olarak kendilerini daha güvende hissederler. İnsanların en temel özelliği ise bir yerlere ait ya da bağlı hissetmektir. Bunu sağlamak, sahip olunan müşteri potansiyelini arttırabilir. Kendi reklamınızın yapılmasını isterseniz, müşterileriniz ile aranızdaki bağı iyi derecede tutabilir ve onların size olan bağlılığını arttırmanız yeterli olacaktır. Buna direkt etki eden şeylerden birisi ise şüphesiz kredi skorlamasıdır.
 

 
References :
-http://globalaihub.com/examples-of-artificial-intelligence-in-life/
-http://globalaihub.com/machine-learning-makine-ogrenimi/
-https://www.cgap.org/sites/default/files/publications/2019_07_Technical_Guide_CreditScore.pdf
-https://www.moodysanalytics.com/solutions-overview/credit-origination/credit-assessment
-https://corporatefinanceinstitute.com/resources/knowledge/credit/credit-analysis-process/

R Programlama

Yapay zeka ve makine öğrenmesi denilince akla ilk gelen yazılım dillerini Java, C, Python olarak sıralayabiliriz. Bir istatistikçi olarak benim de kullandığım, veri bilimciler tarafından da sıklıkla tercih edilen R Programlama, istatistiksel veri analizi, grafik gösterimi, istatistiki yazılım geliştirme alanlarında kullanılan bir programlama ve yazılım dilidir.
R, doğrusal ve doğrusal olmayan modelleme, klasik istatistiki testler, zaman serileri analizi, sınıflandırma, kümeleme gibi istatistiki teknikler ve grafik çizim teknikleri sunmaktadır. R;

  • Etkili bir veri işleme ve depolama tesisidir.
  • Diziler, özellikle matrisler üzerinde hesaplamalar için bir operatör paketi içerir.
  • Veri analizi için geniş, tutarlı, entegre bir ara araç koleksiyonu içerir.
  • Veri analizi için grafiksel olanaklar ve ekranda veya basılı kopya üzerinde görüntüleme ve koşullu ifadeler, döngüler, kullanıcı tanımlı özyinelemeli işlevler ve girdi ve çıktı olanaklarını içeren iyi geliştirilmiş, basit ve etkili bir programlama dilidir.

R Programın Tarihçesi
Yeni Zelanda Auckland Üniversitesinden Ross Ihaka ve Robert Gentleman tarafından ortaya çıkarılan R, günümüzde de  R Geliştirme Çekirdek Ekibi tarafından geliştirilmektedir. S programlama dilinin  uyarlaması olarak karşımıza çıkar. R Foundation tarafından desteklenen ve GNU Tasarısının parçası olan bir özgür yazılımdır.
R Programlamanın Avantajları

  1. R, gerektiği yerlerde matematiksel semboller ve formüller dahil olmak üzere iyi tasarlanmış yayın kalitesinde grafiklerin üretilebilmesinde kolaylık sağlar.
  2. Açık kaynak kodlu ve ücretsizdir. Veri madenciliği, istatistik gibi konularda 15.000’in üzerinde paket içerir. Aynı zamanda kullanıcıların kendi paketlerini oluşturmalarında veya çok özel araştırma alanlarına ait paketlerle oldukça geliştirilebilirdir.
  3. Çapraz platform olması sayesinde GNU/Linux, Microsoft Windows gibi değişik işletim sistemleri üzerinde çalışabilir.
  4. Microsoft Excel, Microsoft Access, Oracle, MySQL ve SQLite, Hadoop, SAS ve SPSS gibi birçok araç ile entegre şekilde çalışabilir bu sayede data import- export işlemleri kolaylıkla gerçekleştirebilir.
  5. Verinin ekranda ya da basılı bir eserde görüntülenebilmesine olanak veren geniş, grafiksel özellikler sunar.

R programlamanın kullanım alanlarına bakacak olursak; dünya çapında birçok veri bilimci tarafından sağlık, finans, otomotiv gibi alanlarda kullanılır. Örnek olarak Ford Motor Company, iş stratejisini ve gelecekteki tasarımlarını geliştirmelerine yardımcı olan ürün hakkındaki müşteri düşüncelerini analiz etmek için R’ı istatistiksel analizler için kullanır.
R yapay zeka mühendisleri ve veri bilimciler için en iyi programlama dilleri arasında gösterilir. Tahmin, kestirim, sınıflandırma gibi yaklaşımları ve makine öğrenmesi için gerekli algoritmalarını içeren kütüphaneleri(dplyr, magrittr, caTools, caret gibi) bünyesinde barındırır. R programlamadan kısaca bahsettik. Sizler de veri bilimci olma yolunda ilerliyorsanız R programlama dilini kısa zaman içinde öğrenebilir ve makine öğrenmesi problemlerinizde uygulayabilirsiniz. Bir sonraki yazımızda görüşünceye dek hoşçakalınız…

REFERANSLAR
https://www.r-project.org/about.html
https://atacangarip.wordpress.com/2016/10/20/r-dili-tarihcesi-ve-ozellikleri/
https://medium.com/datarunner/r-nedir-4375f53ba1d4
https://www.linkedin.com/pulse/r-yazilimi-datamining-machine-learning-nedir-datalab-tr/
https://www.mediaclick.com.tr/tr/blog/r-programlama-dili-nedi

Makine Öğrenimi İçin Veri Etiketleme Araçları

Verilerin etiketlenmesi işlemi, gözetimli herhangi bir makine öğrenimi projelerinde çok önemli bir adımdır. Etiketleme, bir görüntüdeki alanları tanımlama ve bu bölgeler için hangi nesneye ait ise o nesnenin açıklamalarının oluşturulduğu işlemidir. Verilerin etiketlenmesi ile hem verilerimizi ML projelerine hazırlamış oluyoruz hem de onları daha okunabilir kılıyoruz. Çalıştığım projelerin çoğunda veri setindeki kümeleri oluştururken yeri geldi kendim etiketlemeler yaptım yeri geldi etiketlenmiş görüntüler ile eğitim işlemimi gerçekleştirdim. Bu yazıda sizler ile bu alanda tecrübelerimi paylaşarak en çok karşılaştığım veri etiketleme araçlarını tanıtacağım.
Labeling Image

📍COLABELER

Colabeler, konumlandırma ve sınıflandırma problemlerinde etiketleme yapmayı sağlayan programdır. Bilgisayarlı görü, doğal dil işleme, yapay zekâ ve ses tanıma alanlarında sıkça kullanılan bir etiketleme programıdır [2]. Aşağıda gördüğünüz görsel örnek bir görüntü etiketlenmesini göstermektedir. Burada gördüğünüz sınıflar genellikle araba (car) sınıfına denk gelmiştir. Sol tarafta gördüğünüz araç bölümünde nesneleri eğri, poligon veya dikdörtgen olarak sınıflandırmanız mümkündür. Bu seçim etiketlemek istediğiniz verinin sınırlarına göre değişebilmektedir.
 

Labeling Colabeler
Ardından ‘Label Info’ yazan bölümde kendiniz etiketlemek istediğiniz nesnelerin ismini yazıyorsunuz. Tüm etiketlemeleri bitirdikten sonra mavi tik olan butondan onaylayarak kaydediyorsunuz. Ve böylelikle bir sonraki görüntüye Next ile geçebiliyorsunuz. Burada dikkat etmemiz gereken nokta, kaydettiğimiz her görüntü bu mavi butonun soluna sıralanmaktadır. Bu şekilde kaydettiğiniz görüntüleri de kontrol etmeniz mümkündür. Colabeler’ın en çok sevdiğim yanlarından bir tanesi içerisinde yapay zeka algoritmalarını da kullanılabilir olmasıdır. 
📌 Daha önce çalıştığım bir projede Colabeler üzerinden etiketleme gerçekleştirdim ve inanılmaz kolay bir arayüze sahip bir yazılımdır.
📽 Colabeler’ ın yetkili web sitelerinde yer alan videoda etiketlemelerin nasıl yapılacağı açıklanmıştır.
Localization of Bone Age
Daha önce çalıştığım projenin örnek bir görüntüsünü yukarıda verdim. Bu proje, makine öğrenimi bağlamında yerelleştirme (localization) projesi olduğu için bu özelliklere bağlı kalınarak etiketleme yapılmıştır. Yerelleştirme, bir özelliğin bulunduğu görüntünün alt bölgesini izole etmek anlamına gelir. Örneğin, bu proje için kemik bölgelerinin tanımlanmaya çalışılması yalnızca görüntüdeki kemik bölgelerinin etrafında dikdörtgenler oluşturmak anlamına gelir [3]. Bu şekilde kemik görüntülerinde çıkarılması muhtemel sınıfları ROI bölgesi olarak etiketlemiş oldum. Ardından bu etiketleri Colabeler’ın sağladığı Export XML/JSON olarak elde ettim. Bu kısım birçok makine öğrenimi çalışanlarının hoşuna gidecektir, benim çok işime yaramıştı!

♻️ Etiketlerin Dışarıya Aktarılması

Exporting JSON Output
Bu aşamada ben JSON veriler kullanacağım için JSON çıktısı olarak kayıt etmiştim, siz verilerinizi farklı formatlarda kayıt edebilirsiniz. Aşağıda verdiğim görselde ise oluşturduğum sınıfların JSON çıktısındaki yerlerini görmektesiniz. Bu şekilde verileriniz etiketli bir şekilde hazırlanmış oldu.
JSON Format

📍ImageJ

ImageJ, Ulusal Sağlık Enstitüleri ve Optik Hesaplamalı Enstrümantasyon Laboratuvarı’nda (LOCI, Wisconsin Üniversitesi) geliştirilen Java tabanlı bir görüntü işleme programıdır. Imagej’in eklenti mimarisi ve yerleşik geliştirme ortamı, görüntü işlemeyi öğretmek için popüler bir platform haline getirmiştir [3].

Yukarıda yer verdiğim şekilde Wikipedia içerisinde ImageJ’den alınmış bir ekran görüntüsünü görmektesiniz. Görüldüğü gibi bu yazılım aşırı kompleks bir tarafı mevcut değildir. Birçok alanda meslek fark etmeksizin kullanılmakta olan bir araçtır.
📝 ImageJ’ in yetkili web sitelerinde yer alan kullanım kılavuzu olarak verilen dokümantasyonda etiketlemelerin nasıl yapılacağı ve yazılım aracının nasıl kullanılacağı açıklanmıştır.
📌 Makine öğrenimi projesinde etiketlemek zorunda kaldığım görüntüler için Fiji-ImageJ yazılım araçlarına da uğramışlığım vardır. Arayüzü diğer çalıştığım etiketleme programlarına göre çok daha eski kalmış durumda diye düşünüyorum. Yazılımsal açıdan yapmak istediğiniz işlemleri gerçekleştirebilirsiniz elbette, ancak bana göre bir yazılımın kullanıcıyı tasarımsal açıdan da doyurması gerekmektedir.
Image Toolbox Matlab
Yukarıda verdiğim görsel kişisel bilgisayarımda çalıştığım proje sırasında aldığım bir ekran görüntüsü idi. Matlab platformunda çalışırken verileri aktif edebilmek için öncellikle güncelleme yapmak gerekiyordu. Bu sebeple güncelleme yaptıktan sonra görüntüleri tanımlamaya devam ettim. ImageJ kullanıcıları için Matlab eklentisinin kurulması sırasında yüklenecek paket aşağıda verilmektedir.
ImageJ Matlab

📍Matlab Image Labeler

Image Labeler uygulaması, bir video veya görüntü dizisinde dikdörtgen ilgi alanı (ROI) etiketlerini, polyline ROI etiketlerini, piksel ROI etiketlerini ve sahne etiketlerini işaretlemenin kolay bir yolunu sunar. Örnek olması için bu uygulamayı kullanarak size göstererek başlamış olur [4]:

  • Bir resim koleksiyonundan bir resim çerçevesini el ile etiketleme
  • Bir Otomasyon algoritması kullanarak görüntü çerçeveleri arasında otomatik olarak etiketleme
  • Etiketli lokasyon gerçeği verilerini dışa aktarma

Image Toolbox Matlab
Yukarıda gördüğünüz görselde Matlab Image Labeler yazılımını kullanarak segmentasyon işlemi yapabiliyoruz. Daha doğrusu verileri ROI bölgelerine ayırarak etiketleme yapmamız mümkündür. Ayrıca, daha önce var olan algoritmaları kullanmanız mümkün olduğu gibi kendinize ait algoritmanızı da veriler üzerinde test edip çalıştırabiliyorsunuz.
Selection ROI
Matlab’ın yetkili dokümantasyonundan aldığım bu görselde sol menüde seçtiğiniz sınırlayıcı bölgelerin etiket isimleri girilmektedir. Nesnenin sınıfına göre bir etiket rengi atanmaktadır. Bu şekilde etiketlerimizi oluşturmamız da oldukça mümkün. Bir sonraki yazıda ise diğer etiketleme araçlarından bahsedeceğim. Görüşmek dileğiyle ✨

REFERANSLAR
  1. https://medium.com/@abelling/comparison-of-different-labelling-tools-for-computer-vision-f3afd678da76.
  2. http://www.colabeler.com.
  3. From Wikipedia, The Free Encyclopedia, ImageJ, https://en.wikipedia.org/wiki/ImageJ.
  4. MathWorks, Get Started with the Image Labeler, https://www.mathworks.com/help/vision/ug/get-started-with-the-image-labeler.html.
  5. https://chatbotslife.com/how-to-organize-data-labeling-for-machine-learning-approaches-and-tools-5ede48aeb8e8.
  6. https://blog.cloudera.com/learning-with-limited-labeled-data/.

Bilim İnsanları, Robotların Ağrıyı Algılaması ve Kendi Kendine Onarmasına Yardımcı Olmak İçin “Mini Beyinler” Geliştiriyor

Nanyang Teknoloji Üniversitesi’nde (Singapur) çalışan bilim insaları, beyinden ilham alan bir yaklaşım kullanarak, robotların ağrıyı tanıması ve hasar gördüğünde kendi kendine kendini onarması için yapay zekaya (AI) sahip olmanın bir yolunu bulmanın üzerine çalışıyorlar. NTU tarafından üretilen robotlar yakın zamanda hayatımızda yerini alacak.

Sistemde, fiziksel bir kuvvetin uyguladığı anlamak, basınçtan kaynaklanan ‘ağrıyı’ işlemek ve yanıtlamak için yapay zeka destekli sensör kitleri bulunuyor. Robotun, insan müdahalesine gereksinimi olmadan, küçük bir ‘yaralandığında’ kendi hasarını tespit etmesine ve onarmasına da olanak sağlıyor ve hızlıca kendini tamir ediyor.

Designed by stories / Freepik

Günümüzde robotlar, yakın çevreleri hakkında bilgi üretmek için bir sensör ağı kullanıyor. Örneğin, bir felaket kurtarma robotu, enkaz altında hayatta kalanı bulmak için kamera ve mikrofon sensörlerini kullanır ve kişiyi, kollarındaki dokunma sensörlerinden kılavuzluk ederek dışarı çıkarır. Bir fabrikada montaj hattında çalışan bir endüstriyel fabrika robotu, robotun kolunu doğru konuma yönlendirmek için görüş kullanır ve nesnenin kaldırıldığında kayıp kaymadığını belirlemek için sensörlere dokunur. Yani günümüz sensörleri tipik olarak bilgiyi işlemiyor. Ancak öğrenmenin gerçekleştiği tek bir büyük, güçlü, merkezi işlem birimine gönderiyor. Bu durum yanıt sürelerinin gecikmesine neden olur. Aynı zamanda bakım ve onarım gerektirecek, uzun ve maliyetli olabilecek hasarları gündeme getiriyor.

NTU’lu bilim insanlarının yeni yaklaşımı, yapay zekayı, robotik cilde dağıtılmış ‘mini beyinler’ gibi davranan çok sayıda küçük, daha az güçlü işleme birimine bağlı sensör düğümleri ağına yerleştiriyor. Bilim insanlarının, bu, öğrenmenin yerel olarak gerçekleştiği ve robot için kablolama gereksinimlerinin ve yanıt süresinin geleneksel robotlara göre beş ila on kat azaldığı anlamına geliyor.

Designed by stories / Freepik

Bu projenin yardımcı yazarı Elektrik ve Elektronik Mühendisliği Fakültesi’nden Doç. Dr. Arindam Basu, “Robotların bir gün insanlarla birlikte çalışabilmesi için, bizimle güvenli bir şekilde etkileşime girmelerinin nasıl sağlanacağı bir endişe. Bu nedenle, Dünyanın dört bir yanındaki bilim adamları, robotlara bir farkındalık duygusu getirmenin, örneğin acıyı ‘hissedebilme’, buna tepki verebilme ve zorlu çalışma koşullarına dayanma gibi yollar buluyor. Bununla birlikte, gereken çok sayıda sensörü bir araya getirmenin karmaşıklığı ve bu tür bir sistemin sonuçta ortaya çıkan kırılganlığı, yaygın olarak benimsenmesi için büyük bir engeldir.

Çalışmanın ilk yazarı, aynı zamanda NTU Malzeme Bilimi ve Mühendisliği Okulu’nda Araştırma Görevlisi olan Rohit Abraham John, “Bu yeni cihazların kendi kendini iyileştirme özellikleri, robotik sistemin ne zaman kendini tekrar tekrar birleştirmesine yardımcı oluyor ‘dedi. Oda sıcaklığında bile bir kesik veya çizikle yaralanmış. Bu, biyolojik sistemimizin nasıl çalıştığını taklit eder, tıpkı bir kesikten sonra insan derisinin kendi kendine iyileşmesi gibi.

Designed by stories / Freepik

Nesneleri tanımak için ışıkla etkinleşen cihazları kullanmak gibi nöromorfik elektronikler üzerindeki önceki çalışmalarını temel alan ve üzerine çalışan NTU araştırma ekibi, şimdi daha büyük ölçekli uygulamalar için sistemlerini geliştirmek üzere endüstri ortakları ve hükümet araştırma laboratuvarlarıyla işbirliği yapmayı düşünüyor ve robotların ağrıyı algılaması ve kendi kendine kendini onarmasına yardımcı olmak için “Mini Beyinler” geliştiriyor. NTU tarafından üretilen robotlar hayatımızın bir parçası olacak.

Kaynakça

  1. https://www.sciencedaily.com/releases/2020/10/201015101812.htm
  2. http://www.freepik.com
  3. http://globalaihub.com/cahit-arf-makineler-dusunebilir-mi/