Boxed-Width Version (true/false)

Kamis, 03 Februari 2022

thumbnail

Exploratory Data Analysis dengan Pandas - Part 2

 

Mengenal dan Membuat Distribusi Data dengan Histogram

Tugas tambahan dari Andra tadi sudah kuselesaikan, selagi menunggu Andra kembali. Aku coba lanjut untuk menyimak pembahasan lanjutan mengenai Exploratory Data Analysis terlebih dulu.

Histogram merupakan salah satu cara untuk mengidentifikasi sebaran distribusi dari data. Histogram adalah grafik yang berisi ringkasan dari sebaran (dispersi atau variasi) suatu data. Pada histogram, tidak ada jarak antar batang/bar dari grafik. Hal ini dikarenakan bahwa titik data kelas bisa muncul dimana saja di daerah cakupan grafik. Sedangkan ketinggian bar sesuai dengan frekuensi atau frekuensi relatif jumlah data di kelas. Semakin tinggi bar, semakin tinggi frekuensi data. Semakin rendah bar, semakin rendah frekuensi data.

 

Syntax umum:

 

Beberapa atribut penting dalam histogram pandas:

  • bins = jumlah_bins dalam histogram yang akan digunakan. Jika tidak didefinisikan jumlah_bins, maka function akan secara default menentukan jumlah_bins sebanyak 10.
  • by = nama kolom di DataFrame untuk di group by. (valuenya berupa nama column di dataframe tersebut).
  • alpha = nilai_alpha untuk menentukan opacity dari plot di histogram. (value berupa range 0.0 - 1.0, dimana semakin kecil akan semakin kecil opacity nya)
  • figsize = tuple_ukuran_gambar yang digunakan untuk menentukan ukuran dari plot histogram. Contoh: figsize=(10,12)

Standar Deviasi dan Varians pada Pandas

Varians dan standar deviasi juga merupakan suatu ukuran dispersi atau variasi. Standar deviasi merupakan ukuran dispersi yang paling banyak dipakai. Hal ini mungkin karena standar deviasi mempunyai satuan ukuran yang sama dengan satuan ukuran data asalnya. Sedangkan varians memiliki satuan kuadrat dari data asalnya (misalnya cm^2).

Syntax dari standar deviasi dan varians pada Pandas:

 

Contoh penggunaan pada dataframe nilai_skor_df:

Hasil:

2.701851217
152.8

contoh:

import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Standar variasi kolom product_weight_gram
order_df.loc[:, "product_weight_gram"].std()
# Varians kolom product_weight_gram
order_df.loc[:, "product_weight_gram"].var()

Menemukan Outliers Menggunakan Pandas

Sebelum menuju ke step by step dalam menemukan outliers, sedikit intermezo dahulu mengenai definisi dari outliers.

Outliers merupakan data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya.

 

Pada umumnya, outliers dapat ditentukan dengan metric IQR (interquartile range).

Rumus dasar dari IQR: Q3 - Q1. Dan data suatu observasi dapat dikatakan outliers jika memenuhi kedua syarat dibawah ini:

  • data < Q1 - 1.5 * IQR
  • data > Q3 + 1.5 * IQR

 

Syntax di Python:

 

Contoh case: mengidentifikasi IQR dari dataframe nilai_skor_df

Hasil:

Karena saat ini memiliki skor IQR, saatnya untuk menentukan Outliers. Kode di bawah ini akan memberikan output dengan beberapa nilai True atau False. Titik data di mana terdapat False yang berarti nilai-nilai ini valid sedangkan True menunjukkan adanya outliers.

menghasilkan















Subscribe by Email

Follow Updates Articles from This Blog via Email

No Comments

About

Diberdayakan oleh Blogger.

Featured

advertise here

Cari Blog Ini

Fans Page

Unordered List

Fanspage

Most Recent Post

    Advertise Here

    banner

    Sample Text

    Text Widget

    Formulir Kontak

    Nama

    Email *

    Pesan *

    About Us

    About Us
    There are many variations of passages of Lorem Ipsum available.

    Ethereum Price

    Monday Tuesday Wednesday
    $402.89 $384.06 $396.34

    Facebook