Exploratory Data Analysis dengan Pandas - Part 1
Salah satu fungsi Pandas yaitu melakukan load data dari CSV atau Excel file. Syntax yang digunakan untuk melakukan operasi tersebut, yaitu:
Nama variabel ([nama_variabel]) dari contoh diatas menunjukkan nama variabel dari dataframe untuk menampung data dari datasets tersebut!
Cobalah untuk mengimport dataset marketplace ABC dari order.csv dan disimpan ke dalam dataframe bernama order_df.
Notes : untuk dataset diinput dari link berikut "https://storage.googleapis.com/dqlab-dataset/order.csv".
jawaban:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
Inspeksi struktur data frame
Setelah melakukan proses loading dataframe ke dalam Python. Hal selanjutnya sebelum memulai analisis tentunya mengerti struktur dataset tersebut. Sehingga langkah selanjutnya dari pre - analisis biasanya dilakukan untuk:
- melihat struktur data frame,
- melihat preview data dari dataframe tersebut, dan
- membuat summary data sederhana dari dataset.
Melihat struktur kolom dan baris dari data frame
Hal pertama dalam mengerti struktur dari dataframe adalah informasi mengenai berapa size dari dataframe yang akan digunakan termasuk berapa jumlah kolom dan jumlah baris data frame tersebut.
Dalam kasus ini, aku dapat menggunakan fungsi .shape pada suatu dataframe. Syntaxnya dinyatakan dengan:
Tugas Praktek
Cobalah untuk order dataframe dengan menuliskan syntax Python untuk melihat struktur dari order_df dengan menggunakan fungsi shape!
jawaban:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)
outputnya:
(49999, 12) artinya ada 49999 data(row) dan 12 kolom
Melihat preview data dari data frame
Selanjutnya, untuk mendapatkan gambaran dari konten dataframe tersebut. Kita dapat menggunakan function head dan tail, dengan syntax:
Jika [jumlah_data] pada function head dan tail dikosongkan maka secara default akan ditampilkan sebanyak 5 (lima) baris saja. Sehingga bisa ditulis sebagai berikut:
Tugas Praktek
Cobalah untuk check bagaimana contoh data dari dataframe tersebut dengan fungsi head dengan limit 10 baris!
jawaban:
import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.head(10))
Statistik Deskriptif dari Data Frame - Part 1
Statistik deskriptif atau summary dalam Python - Pandas, dapat diperoleh dengan menggunakan fungsi describe(), yaitu:
Function describe dapat memberikan informasi mengenai nilai rataan, standar deviasi dan IQR (interquartile range).
Ketentuan umum:
- Secara umum function describe() akan secara otomatis mengabaikan kolom category dan hanya memberikan summary statistik untuk kolom berjenis numerik.
- Kita perlu menambahkan argument bernama include = "all" untuk mendapatkan summary statistik atau statistik deskriptif dari kolom numerik dan karakter.
yaitu
Contoh penggunaan describe() di Pandas!
Terdapat dataframe Pandas dengan nama nilai_skor_df dengan informasi seperti gambar dibawah:
dengan menggunakan fungsi describe pada nilai_skor_df
menghasilkan
sumber:DQLAB
Subscribe by Email
Follow Updates Articles from This Blog via Email
No Comments