Python ile Veri Analizi ve Görselleştirme

Güzel bir günden daha merhaba! Bu yazıda sizler ile birlikte Python kodlamaya devam edeceğiz. Peki bugün neler yapıyoruz? En sevdiğim konulardan biri olan veri analizine birlikte deyineceğiz. Veri setinizi Kaggle veya UCI gibi veri sitelerinden temin edebilirsiniz. Bunların yanı sıra Iris Çiçek Veri Seti hakkında araştırma yapıp sizler için seçtim.

Iris çiçeği veri seti, İngiliz istatistikçi ve biyolog Ronald Fisher tarafından 1936’daki taksonomik problemlerde çoklu ölçümlerin kullanımı adlı makalesinde sunulan çok değişkenli bir veri setidir. Bazen Anderson Iris veri seti olarak adlandırılır çünkü Edgar Anderson, üç ilgili türün Iris çiçeklerinin morfolojik varyasyonunu ölçmek için verileri toplamıştır. Veri seti, üç Iris türünün (Iris Setosa, Iris virginica ve Iris versicolor) her birinden olmak üzere 50 örnekten oluşur.

Her numuneden dört özellik çıkarılmıştır:

    1. çanak yaprakları santimetre cinsinden uzunluğu
    2. çanak yaprakları santimetre cinsinden genişliği
    3. taç yapraklarının santimetre cinsinden uzunluğu
    4. taç yapraklarının santimetre cinsinden genişliği

Bu veri kümesi, destek vektör makineleri gibi makine öğreniminde birçok istatistiksel sınıflandırma tekniği için tipik bir test senaryosu haline gelmektedir.

Iris veri kümesi

Yukarıda gördüğünüz görsel Colab’da oluşturduğum not defteri içerisinde de yer almaktadır. Bu görselde veri setinden örnekler görmekteyiz. Yazının sonunda yer alan Colab linki üzerinden erişim sağlayabilirsiniz. Zaten veri bilimi alanında en sık ve temel olarak kullanılan veri setlerinden bir tanesi olarak literatürde yer almaktadır.

ADIMLAR

✨ Colab’ da gerekli kütüphaneler tanıtılmalı ve ardından klasör içerisinde yer alan veri setinin yolunun belirtilmesi gerekmektedir. Ardından veri seti içeriğini görmek için df değişkenini yazdırabilir veya ilk 5 satırına erişmek için df.head( ) komutunu kullanabilirsiniz.

Veri kümesini ve kitaplıkları içe aktarma

Veri Kümesini İncele

✨ Dilerseniz df.head( ) komutunu da çalıştırıp nasıl bir çıktı alacağız birlikte görelim.

Baş Komuta

✨ Yukarıda veri setinde yer alan özelliklerin değerlerine yer vermekteyiz. sepal_length ve petal_width gibi değişkenler numerical (sayısal) değişkenlerdir. Bir de bunun yanı sıra species olarak geçen çiçek türü özelliği ise categorical (kategorik) değişken olarak geçmektedir. Öncelikli olarak bu verilerin hangi değişken türüne girdiğini bilmekte fayda var.

⚠️ Eğer burada yer alan sayısal değişkenlerden (sepal_length ve petal_width arası özellikler) kategorik verinin yani çiçek türünün tahmini yapılmak isteniyorsa bu bir sınıflandırma problemidir.

✨ Pandas’ ın describe metodu ile tanımlayıcı istatistikler yazdırılmaktadır. Takip etmek isterseniz Pandas’ ın orijinal dokümanlarından erişebilirsiniz. Bu şekilde her özellik ne kadar veri içeriyorsa -kayıp verileri de görmemiz mümkün- bunun bilgilendirmesi yapılmaktadır. Özelliklerin standart sapması, ortalaması, minimum ve maksimum değerleri görülmektedir.

Describe Method

Örneğin bu veriler içerisinde sepal_length özelliği toplam 150000 satır ve bu değerlerin standart sapması ise yaklaşık olarak 0.83 olarak belirtilmiştir.

⏳ 25% ve 75% aralığı ise Quartile (Çeyrekler Aralığı) olarak bilinmektedir. Bu değerler kontrol edilerek verinin analizi yapılabilmektedir.

✨ Veri seti hakkında bilgi almak için ise df.info( ) komutu çalıştırılmalıdır.

Bu bilgilere göre boş değer olan satır bulunmamakta olduğunu görüyoruz. Bunların yanı sıra sayısal olarak var olan özelliklerin float tipine sahip olduğunun da bilgisine sahip oluyoruz.

df.isna( ) komutu veri setinde kayıp veri (Not a Number) olup olmadığını kontrol etmektedir. Kayıp verinin olduğu satırın ‘True’ olmasını beklemekteyiz. Ancak yukarıda gördüğümüz gibi kayıp verimiz bulunmamaktadır.

NaN Any

df.isna( ).any( ) komutu ise veri setinde kayıp veriler kontrol edilirken 1 adet bile kayıp veri içeriyor ise True olarak dönmektedir.

Not a Number Value

🖇 NOT: Yukarıda sözünü ettiğim Colab bağlantısı için bağlantıya tıklayınız.

Serinin 2. yazısında ise veri analizinde kalan ufak noktalara ve görselleştirme alanına deyineceğim. Sağlıcakla kalın ✨

REFERANSLAR

  1. https://pandas.pydata.org/pandas-docs/stable/index.html.
  2. https://www.kaggle.com/arshid/iris-flower-dataset.
  3. Machine Learning Days | Merve Noyan | Data Visualization | Study Jams 2 |, https://www.youtube.com/watch?v=JL35pUrth4g.
  4. https://www.kaggle.com/peterchang77/exploratory-data-analysis.

 

 

Veri Kalitesinin Önemi ve Veri İşleme

Tüm dünyanın üzerinde konuştuğu ve artık yeni düzen içerisinde en önemli şey olarak görülen konu veri’dir. Veri, birçok farklı yöntemle işlenir, üzerinden bilgi çıkarılması için hazırlanır. Başlı başına dünyanın yönünü değiştiren farklı bir boyut kazandıran yapıdır. Günümüzde şirketler aslında sahip olduğu bilgi kadar vardır. Hazır olarak elde edilen veriler, kendi topladığınız detaylarını bildiğiniz verilere oranla daha kalitesiz olabilir. Bundan ötürü, veri işleme konusunda epeyce zaman harcayabilir, proje süresini uzatabilirsiniz. Bu da sizin için büyük bir dezavantaj olabilir. Hazır olarak gelen verilerin kalitesini ölçmek ve onları belirli bir düzene sokmak tamamen sizin elinize kalabilir. Eğer veri kalitesi gerçekten çok düşük seviyelerde ise, onun üzerinde veri işleme basamaklarını dikkatli şekilde uygulayarak sisteme son hazırlıklar yapıldıktan sonra entegre edilebilir.
 
Şu an başlangıç seviyesinde olan yazılım geliştiricilerinin yaptığı en büyük hata, tertemiz olarak hazırlanan verilerin üzerinde işlem yapmaktır. Seviye kat etmek için kendiniz veri seti oluşturup onun analizini yapabilirsiniz. Bu size özgüven verirken karşılaştığınız zorluklar karşısında bulduğunuz çözümler, size büyük ölçüde yol aldıracak olan şeydir ki böylece birçok büyük firmanın önemsediği ‘problem çözebilme’ yeteneğine erişmiş olacaksınız. Kendi topladığınız veri ile uğraşmak, sizi gerçek hayatta karşılaşabileceğiniz sorunlar karşısında hazır hale getirecektir. Veri Bilimi alanında kariyer yapmak isteyen kişiler, kendi verilerini toplayıp bu verinin her ayarını yaparak, gerçek anlamda bir soruna çözüm bulmalı ki en sonunda ürün aşamasına kadar gidebilsin. Geliştirdiği proje evreleri sayesinde bilgi üzerinden işlem yapabilme, ürün geliştirme, gerçek hayat sorununa çözüm bulma gibi konularda önem düzeyi yüksek seviyede tecrübe sahibi olarak kariyerine rahatlıkla devam edebilir.
 

 
Veri Bilimci için en mühim konu veri’dir. Veri olmazsa çözüm bulunamaz, veriye sahip olan kişiler yeni oluşacak olan çağ içerisinde gücü elinde tutacaktır. Gelecek dünya düzeni içerisinde tam anlamıyla dünyaya yön verecek olan şeye veri diyebiliriz. Hayatın her evresinde canlı olarak akan veriler mevcut ve bunları işleyip mantıklı çıkarımlarda bulunmak, yaşadığımız yüzyıl için son derece mühim bir yetenektir. Veriden alınan bilgileri iyi bir şekilde anlayıp oluşacak sorunlara çözüm üretmek, geleceğin iş bulma konusunda kolaylık sağlayacağı bir diğer durumdur. Yapay zeka konusuna açılan en mühim konu, bir proje ve o projeye kaliteli verilerin var oluşudur. Veri kalitesi, oluşacak olan projenin ne kadar uzun süreli olduğunu ve gideceği maksimum noktayı belirlemede söz hakkına tam anlamıyla sahiptir. Veri kalitesi kadar mühim bir konu yoktur çünkü veri kalitesizse oluşacak birçok sorun var demektir.
 
Veri kalitesi kadar önem düzeyi olan bir diğer konu, doğru şekilde veri işleme adımlarını gerçekleştirmektir. Veri bilimi, makine öğrenmesi, yapay öğrenme, derin öğrenme ya da yapay zeka, adını ne koyarsanız koyun bu işlerin bir ürün haline gelmesi için gereken tek şey veri’dir. Ek olarak, bu verinin kaliteli ve veri işleme basamaklarını çok iyi seviyede hazırlanmış olması, bu isimlendirilmelerin yapıldığı projelerin süreçlerine direkt etki etmektedir. Veri işleme adımları, ürün olarak sunulacak olan konuların geçilmesi en kritik durumdur. Bu gibi hayati noktaları atlattıktan sonra, işin ürün haline gelme kısımlarını oluşturarak üzerinde matematiksel, mühendislik bilgisi ya da istatistiksel bilgileri kullanarak hızlı bir şekilde yol alabilirsiniz. Bu durum, projenize ivme kazandırarak, sizi motive eder. Böylece aldığınız motive ve sahip olduğunuz itekleme gücü ile hareket ederek, farklı bir boyuta geçebilirsiniz.
 

 
Dünya şartları, yaşadığımız yüzyıl boyunca sürekli değişim halinde olmaya devam edecektir. Bu değişime öncü olarak belirlenen şey verinin ta kendisidir. Yeni petrol olarak adlandırılan veri, yeni yüzyıl için tam anlamıyla petrol niteliği taşımaktadır. Bunları işlemek, mantıklı sonuçlar elde etmek herkesin en temel amacı olmaktadır. Bu alanda çalışacak kişilerin sayısal bilgileri kuvvetli olmalı ve veriyi işleme konusunda tecrübeli olmalıdır. Veriyi önüne aldığı ilk andan itibaren, sorun çözme zekasını aktif kullanarak çalıştığı birimlere fayda sağlamalıdır. Veri işleme; makine öğrenmesi ve derin öğrenme konularında başarı skorlarını değiştirme gücüne sahip bir tekniktir. Bu teknik, eğer doğru kullanılırsa, erişebilir maksimum skor seviyeleri kolayca yakalanabilir.
 
Akıllı sistemlerin gelişmesi ve hayatımızın tam anlamıyla içine girmesine katkı sağlayan şey, kaliteli veri sayesinde oluşmuştur. Çalışılacak olan proje için kaliteli işler çıkartmak istiyorsanız, öncelikle elinizdeki veriyi kaliteli ve sağlam temellere dayanarak toplamalısınız. Bu durum sağlanmazsa, çok iyi bir veri işleme evresi gerçekleştirip proje öncesi son rötuş yapılarak, projenizi hazır halde tutabilirsiniz. Böylece, sizlere hem zaman tasarrufu sağlar hem de işin başına geçerken uğraşacak olduğunuz verinin kalitesi size güven vererek, proje adımları boyunca sorunları veri üzerinden minimal şekilde çözmeniz gerekecektir. Veri kalitesi, projelerin hayat kaynağıdır. İyi bir veri ile çalışma fırsatı bulmuş kişiler, tam olarak neyi kast ettiğimi çok iyi biliyorlar. Unutmayın iyi bir veri, iyi bir proje, iyi bir çalışma düzeni ve iyi sonuçlar demektir.

Umarım beğenmişsinizdir. Beğendiyseniz yorumlarda belirterek, bana geri dönüş verebilirsiniz.
References :
-https://www.wired.com/insights/2014/07/data-new-oil-digital-economy/#:~:text=Like%20oil%2C%20for%20those%20who,the%20government%20to%20local%20companies.
-https://globalaihub.com/basic-statistics-information-series/
-https://globalaihub.com/python-ile-veri-on-isleme-data-preprocessing/
-https://searchdatamanagement.techtarget.com/definition/data-quality.