Büyük veri varlıkları, özellikle onları web sitelerinden, sunuculardan veya diğer veri kaynaklarından almanız gerektiğinde dağınıktır.
MS Excel gibi kullanıcı arabirimi tabanlı uygulamalar, basit veri kümeleriyle uğraşmak için iyidir, ancak veriler büyüdüğünde zorlanabilir. Bu, daha karmaşık veri tabanlı işlemler gerçekleştirmek için Python’a geçmeniz için iyi bir nedendir.
Python’un üçüncü taraf kitaplığı Pandas, mevcut veri kümelerinizi hızlı bir şekilde sıralamanıza yardımcı olma konusunda uzun bir yol kat eder. Verilerinizi Python’da sıralamak istiyorsanız, bu makale bu görevi gerçekleştirmenin birkaç yolunu ele alıyor.
Verileri Sıralamak için Python Kullanmanın Ön Koşulları
Verilerinizi Python’da sıralamadan önce, birkaç ön koşulu yerine getirmeniz gerekir:
Bir Python IDE’si indirin . Diğerlerinin yanı sıra Jupyter Notebook, PyCharm ve Spyder gibi Python uyumlu bir IDE kullanabilirsiniz . Bunların her biri, tüm Python sürümleriyle uyumludur.
Pandaları yükleyin . PIP veya tercih ettiğiniz yöntemi kullanarak yükleyebileceğiniz pandas paketine ihtiyacınız olacak .
Örnek veri kümesi . Listelenen kodları uygulamak için örnek bir veri kümesi indirin . Alternatif olarak, bu prosedürleri münhasır verileriniz üzerinde de kullanabilirsiniz.
Python’da Pandas Kitaplığını İçe Aktarma
Pandas, Excel, CSV ve diğer veri biçimlerini işlemek için kullanabileceğiniz üçüncü taraf bir Python kitaplığıdır.
Örnek bir Excel dosyasıyla çalışmak için pandas kitaplığını içe aktararak başlayın. Bundan sonra, Excel verilerini Python’a okumak için içe aktarma prosedürünü kullanacaksınız .
Kitaplığı İçe Aktarmak İçin
import pandas as pd
Excel Verilerini Yüklemek için Yeni Bir DataFrame Oluşturun
file = “Sample – Superstore.xls”
df = pd.read_excel(file)
df.head()
Neresi:
df , içe aktarılan verileri depolayan bir DataFrame nesnesidir.
pd , Pandas kitaplığı için bir takma addır.
read_excel , Excel dosyasını Python’a okumak için bir yöntemdir.
dosya , Excel dosyasına giden bir yoldur.
head , DataFrame’den ilk beş satırı döndüren bir yöntemdir.
Python kodunu gösteren Jupyter Notebook arayüzü
Programınız verileri yükledikten sonra, çeşitli şekillerde sıralamak için mevcut birçok DataFrame yöntemini kullanabilirsiniz.
1. DataFrame’de Tek Sütuna Göre Sıralama
Verileriniz çok sayıda satır ve sütuna sahip olacağından, genellikle verileri belirli bir sütuna veya sütunlara göre sıralamak isteyeceksiniz.
Python, verileri varsayılan olarak artan düzende sıralar. Sıralama düzenini değiştirmek istiyorsanız, kodunuzda açıkça belirtmeniz gerekir.
Tek Bir Sütuna Göre Sırala (Artan Sırada)
df.sort_values(by = “Customer ID”)
Python kodunu gösteren Jupyter Notebook arayüzü
Tek Sütuna Göre Sırala (Azalan Sırada)
Sütununuzu azalan düzende sıralamak için artan parametreyi Yanlış olarak ayarlayın .
df.sort_values(by = “Customer ID”, ascending=False)
Python kodunu gösteren Jupyter Notebook arayüzü
Neresi:
df , verileri içeren bir DataFrame nesnesidir.
sort_values , veri değerlerine göre sıralamak için bir yöntemdir.
by , sütun adını tanımlayan bir parametredir .
artan , sıralama düzenini tanımlayan bir parametredir.
2. Bir DataFrame’de Birden Çok Sütunu Sıralama
Gereksinimleriniz gerektiriyorsa, DataFrame(ler)inizi aynı anda birden çok sütuna göre de sıralayabilirsiniz. Böyle bir senaryoda, sütun referanslarını bir listede tanımlamanız gerekir.
Artan Birden Çok Sütuna Göre Sırala
df.sort_values(by = [“Customer ID”, “City”])
Python kodunu gösteren Jupyter Notebook arayüzü
Azalan Birden Çok Sütuna Göre Sırala
Sütunlarınızı azalan düzende sıralamak için artan = Yanlış işlevini kullanın . Unutmayın, aynı anda sıralamak için bir listedeki sütunların adlarını belirtmeniz gerekir.
df.sort_values(by = [“Customer ID”, “City”], ascending = False)
Python kodunu gösteren Jupyter Notebook arayüzü
Farklı Sıralama Düzenlerinde Birden Çok Sütuna Göre Sıralama
Sıralamanın temelleri ile, bir sütunu azalan düzende ve diğerini artan düzende sıralamak istediğinizde ne olur? Bu gereksinimleri dahil etmek için kodunuzu biraz değiştirmeniz gerekir.
Örneğin, Bölge ve Şehir sütunlarını sırasıyla azalan ve artan düzende sıralamak için:
df.sort_values(by = [“Region”, “City”], ascending = [False, True])
Python kodunu gösteren Jupyter Notebook arayüzü
Bu kodun açıklaması basittir; DataFrame adını tanımlarsınız ve bir listedeki sütun adlarıyla birlikte sort_values işlevini geçirirsiniz. Sıralama düzenini belirtmek için Boole değerlerini kullanmalısınız .
İşlevi bu şekilde çağırmak, Python’un önce DataFrame’in Bölge sütununa göre azalan düzende sıralayacağı anlamına gelir. Ardından, aynı Bölgeye sahip satırlar, artan düzende Şehir sütununa göre sıralanacaktır.
3. Bir DataFrame’deki Sütunları Dizine Göre Sıralama
Dizin değişkeni, bir Python Veri Çerçevesi içindeki her satıra atanan varsayılan değerdir. İndeks değerlerini tanımlayabilir veya Python’un kendi başına bir indeks değeri belirlemesine izin verebilirsiniz.
Verileri dizin değerine göre sıralamak için sort_index işlevini kullanabilirsiniz. Bu işlev, orijinal veri kümesinde bulunan herhangi bir değer yerine dizini temel alarak sıralar.
df.sort_index()
Python kodunu gösteren Jupyter Notebook arayüzü
Sıralama_değerlerinde olduğu gibi, sıralamanın yönünü belirtmek için artan bir parametre iletebilirsiniz . Örneğin, verileri azalan düzende sıralamak için bir False değeri iletin:
df.sort_index(ascending = False)
Python kodunu gösteren Jupyter Notebook arayüzü
4. Sütunları Satır Yerine DataFrame’de Sıralama
Bir DataFrame’deki satırları sıralamak yerine sütunlarını sıralayabilirsiniz. Bunu sort_index yöntemini çağırarak ve ona 1 değerinde bir eksen parametresi ileterek yapabilirsiniz :
df.sort_index(axis=1)
Python kodunu gösteren Jupyter Notebook arayüzü
Bu adım, DataFrame’i sütunlarına göre artan düzende sıralar. DataFrame’in sütunlarını azalan düzende sıralamak için, sıralama adımınızda sıralama düzenini belirleyebilirsiniz.
df.sort_index(axis=1, ascending = False)
Python kodunu gösteren Jupyter Notebook arayüzü
5. DataFrame’i Sıralarken Değiştirme
İki sıralama yöntemi, orijinal verilerin bir kopyasını yeni sıralanmış durumunda döndürerek çalışır. Depolama alanından tasarruf etmek veya yalnızca daha kısa kod yazmak için bunun yerine orijinal DataFrame verilerini değiştirebilirsiniz. Her yöntem, değiştirilmiş bir kopya döndürmek yerine verileri değiştiren yerinde bir boole parametresini kabul eder.
df.sort_values(by = [“Customer ID”, “City”], ascending = False, inplace = True)
Python kodunu gösteren Jupyter Notebook arayüzü
Python’da Verileri Sıralamayı Öğrenmek
Python, Excel’in yerleşik işlevlerinin çoğunu birkaç satır kodla çoğaltır. Sıralama prosedürlerinden verileriniz üzerinde ayrıntılı Pivot tablolar oluşturmaya kadar, onu adlandırın ve Python’da yapabilirsiniz.
Hala Python’da yeniyseniz ve ipleri öğreniyorsanız, bu adımlar kodlama becerilerinizi nispeten kolay bir şekilde geliştirecektir.