Kamis, 03 Februari 2022

Exploratory Data Analysis dengan Pandas - Part 2

Februari 03, 2022 0 Comment

Mengenal dan Membuat Distribusi Data dengan Histogram

Tugas tambahan dari Andra tadi sudah kuselesaikan, selagi menunggu Andra kembali. Aku coba lanjut untuk menyimak pembahasan lanjutan mengenai Exploratory Data Analysis terlebih dulu.

Histogram merupakan salah satu cara untuk mengidentifikasi sebaran distribusi dari data. Histogram adalah grafik yang berisi ringkasan dari sebaran (dispersi atau variasi) suatu data. Pada histogram, tidak ada jarak antar batang/bar dari grafik. Hal ini dikarenakan bahwa titik data kelas bisa muncul dimana saja di daerah cakupan grafik. Sedangkan ketinggian bar sesuai dengan frekuensi atau frekuensi relatif jumlah data di kelas. Semakin tinggi bar, semakin tinggi frekuensi data. Semakin rendah bar, semakin rendah frekuensi data.

Syntax umum:

Beberapa atribut penting dalam histogram pandas:

bins = jumlah_bins dalam histogram yang akan digunakan. Jika tidak didefinisikan jumlah_bins, maka function akan secara default menentukan jumlah_bins sebanyak 10.
by = nama kolom di DataFrame untuk di group by. (valuenya berupa nama column di dataframe tersebut).
alpha = nilai_alpha untuk menentukan opacity dari plot di histogram. (value berupa range 0.0 - 1.0, dimana semakin kecil akan semakin kecil opacity nya)
figsize = tuple_ukuran_gambar yang digunakan untuk menentukan ukuran dari plot histogram. Contoh: figsize=(10,12)

Standar Deviasi dan Varians pada Pandas

Varians dan standar deviasi juga merupakan suatu ukuran dispersi atau variasi. Standar deviasi merupakan ukuran dispersi yang paling banyak dipakai. Hal ini mungkin karena standar deviasi mempunyai satuan ukuran yang sama dengan satuan ukuran data asalnya. Sedangkan varians memiliki satuan kuadrat dari data asalnya (misalnya cm^2).

Syntax dari standar deviasi dan varians pada Pandas:

Contoh penggunaan pada dataframe nilai_skor_df:

Hasil:

2.701851217
152.8

contoh:

import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Standar variasi kolom product_weight_gram
order_df.loc[:, "product_weight_gram"].std()
# Varians kolom product_weight_gram
order_df.loc[:, "product_weight_gram"].var()

Menemukan Outliers Menggunakan Pandas

Sebelum menuju ke step by step dalam menemukan outliers, sedikit intermezo dahulu mengenai definisi dari outliers.

Outliers merupakan data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya.

Pada umumnya, outliers dapat ditentukan dengan metric IQR (interquartile range).

Rumus dasar dari IQR: Q3 - Q1. Dan data suatu observasi dapat dikatakan outliers jika memenuhi kedua syarat dibawah ini:

data < Q1 - 1.5 * IQR
data > Q3 + 1.5 * IQR

Syntax di Python:

Contoh case: mengidentifikasi IQR dari dataframe nilai_skor_df

Hasil:

Karena saat ini memiliki skor IQR, saatnya untuk menentukan Outliers. Kode di bawah ini akan memberikan output dengan beberapa nilai True atau False. Titik data di mana terdapat False yang berarti nilai-nilai ini valid sedangkan True menunjukkan adanya outliers.

menghasilkan

Februari 03, 2022 Tags : Data , Data Scient , python

Boxed-Width Version (true/false)

Kamis, 03 Februari 2022

Exploratory Data Analysis dengan Pandas - Part 2

Mengenal dan Membuat Distribusi Data dengan Histogram

Standar Deviasi dan Varians pada Pandas

Menemukan Outliers Menggunakan Pandas

No Comments

About

Featured

Laporkan Penyalahgunaan

Cari Blog Ini

Arsip Blog

Fans Page

Unordered List

Fanspage

Most Recent Post

Advertise Here

Navigation Social Media

Sample Text

Text Widget

Main Menu

Follow Us

Link List

Main Menu

Social Media Icons

Mengenai Saya

Formulir Kontak

About Us

Labels

Label

Ethereum Price

Navigasi [PageList]

Pages [Footer]

Facebook

Kamis, 03 Februari 2022

Exploratory Data Analysis dengan Pandas - Part 2

Mengenal dan Membuat Distribusi Data dengan Histogram

Standar Deviasi dan Varians pada Pandas

Menemukan Outliers Menggunakan Pandas

Subscribe by Email

No Comments

About

Featured

Laporkan Penyalahgunaan

Cari Blog Ini

Arsip Blog

Fans Page

Unordered List

Fanspage

Most Recent Post

Advertise Here

Navigation Social Media

Sample Text

Text Widget

Main Menu

Follow Us

Link List

Main Menu

Social Media Icons

Mengenai Saya

Formulir Kontak

About Us

Labels

Label

Ethereum Price

Navigasi [PageList]

Pages [Footer]

Facebook