Prezentarea pandelor

În acest tutorial voi da o introducere de bază la ursi panda. Nu vreau să spun panda de animale, ci o bibliotecă Python!

După cum sa menționat pe site-ul web pandas:

pandas este o bibliotecă licențiată cu licență BSD, care oferă structuri de date performante și ușor de utilizat și instrumente de analiză a datelor pentru limbajul de programare Python.

Prin urmare, ursi panda este o bibliotecă de analiză a datelor care are structurile de date de care avem nevoie pentru a curăța datele brute într-o formă care este potrivită pentru analiză (adică tabele). Este important de reținut că de atunci ursi panda îndeplinește sarcini importante, cum ar fi alinierea datelor pentru compararea și combinarea seturilor de date, manipularea datelor lipsă etc., a devenit o bibliotecă de facto pentru procesarea de date la nivel înalt în Python (adică statistici). Bine, ursi panda a fost conceput inițial pentru a gestiona datele financiare, cu condiția ca alternativa obișnuită să fie utilizarea unei foi de calcul (adică Microsoft Excel).

Structura de date de bază a ursi panda se numește DataFrame, care este o colecție ordonată de coloane cu nume și tipuri, arătând astfel ca un tabel de bază de date în care un singur rând reprezintă un singur caz (exemplu) și coloanele reprezintă atribute particulare. Trebuie menționat faptul că elementele din diferite coloane pot fi de diferite tipuri.

Deci, linia de jos este că ursi panda biblioteca ne furnizează structurile și funcțiile de date necesare pentru analiza datelor.

Instalarea pandelor

Să vedem acum cum putem instala ursi panda pe mașinile noastre și să le folosim pentru analiza datelor. Cel mai simplu mod de a instala ursi panda și de a evita orice probleme de dependență este prin utilizarea Anaconda care ursi panda face parte din. Așa cum am menționat în pagina de descărcare Anaconda:

Anaconda este o distribuție Python complet liberă (inclusiv pentru utilizare comercială și redistribuire). Acesta include mai mult de 400 de pachete Python cele mai populare pentru știință, matematică, inginerie și analiză de date

Distribuția Anaconda este încrucișată, ceea ce înseamnă că poate fi instalat pe mașini OS X, Windows și Linux. Voi folosi programul de instalare OS X de când lucrez la o mașină Mac OS X El Capitan, dar, bineînțeles, puteți alege programul de instalare potrivit pentru sistemul dvs. de operare. Voi merge cu instalatorul grafic (fii atent, este de 339 MB).

Anaconda Mac OS X instalator grafic

După ce descărcați programul de instalare, pur și simplu parcurgeți pașii expertului de instalare simplă și sunteți toți setați!

Tot ce trebuie să facem acum pentru a folosi ursi panda este de a importa pachetul după cum urmează:

pandele de import ca pd

Structurile de date Pandas

Am menționat unul dintre cei trei ursi panda structurile de date de mai sus, DataFrame. Voi descrie această structură de date în această secțiune în plus față de cealaltă ursi panda structură de date, Serie. Există o altă structură de date numită Panou, dar nu o voi descrie în acest tutorial, deoarece nu este atât de frecvent utilizat, așa cum se menționează în documentație. DataFrame este o structură de date 2D, Serie este o structură de date 1D și Panou este o structură de date 3D și mai mare.

DataFrame

DataFrame este o structură de date tabulară compusă din coloane și rânduri comandate. Pentru a face lucrurile mai clare, să examinăm exemplul creării unui DataFrame (tabel) dintr-un dicționar de liste. Următorul exemplu prezintă un dicționar format din două chei, Nume și Vârstă, și lista corespunzătoare a valorilor.

panda import ca pd import numpy ca np name_age = 'Nume': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam' 30] data_frame = pd.DataFrame (name_age) imprimă data_frame

Dacă executați scriptul de mai sus, ar trebui să obțineți o ieșire similară cu următoarea:

Observați că DataFrame constructorul comandă coloanele în ordine alfabetică. Dacă doriți să modificați ordinea coloanelor, puteți introduce următoarele sub data_frame de mai sus:

data_frame_2 = pd.DataFrame (name_age, columns = ['Name', 'Age'])

Pentru a vizualiza rezultatul, tastați pur și simplu: print_frame_2.

Spuneți că nu doriți să utilizați etichetele implicite 0,1,2, ... și doriți să utilizați a, b, c, ... în schimb. În acest caz, puteți utiliza index în scriptul de mai sus, după cum urmează:

date_frame_2 = pd.DataFrame (numele_grupă, coloane = ['Nume', 'Vârstă'], index = ['a', 'b', 'c', 'd'

A fost foarte frumos, nu-i așa? Utilizarea DataFrame, am reușit să vedem datele noastre organizate într-o formă tabelară.

Serie

Serie este al doilea ursi panda structura de date pe care o voi vorbi. A Serie este un obiect unidimensional (1D) similar cu o coloană din tabel. Dacă vrem să creăm a Serie pentru o listă de nume, putem face următoarele:

seria = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], index = [1, 2, 3, 4, 5]

Rezultatul acestui script ar fi după cum urmează:

Observați că am folosit-o index pentru a eticheta datele. În caz contrar, etichetele implicite vor începe de la 0,1 ...

Funcțiile Pandas 

În această secțiune, vă voi arăta exemple de funcții pe care le putem folosi DataFrame și Serie.

Cap și coadă

Funcțiile cap() și coadă() ne permite să vedem un eșantion de date, mai ales atunci când avem un număr mare de intrări. Numărul implicit de elemente care se afișează este de 5, dar puteți reveni la numărul personalizat dorit.

Să presupunem că avem a Serie compus din 20.000 de articole aleatoare (numere):

import pandas ca import pd numpy ca np series = pd.Series (np.random.randn (20000))

Utilizarea cap() și coadă() metodele de urmărire a primului și ultimului cinci articole, respectiv, putem face următoarele:

imprimare series.head () print series.tail ()

Ieșirea din acest script ar trebui să fie ceva similar cu următorul (observați că ați putea avea valori diferite de când generăm valori aleatorii):

Adăuga

Să luăm un exemplu de adăuga() funcția în care vom încerca să adăugăm două rame de date după cum urmează:

pandele de import ca pd dicționar_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = , 7, 6, 1, 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dicționar_1) data_frame_2 = pd.DataFrame_data_frame_3 = data_frame_1.add (data_frame_2) print_frame_1 tipăriți data_frame_2 tipăriți data_frame_3

Rezultatul scriptului de mai sus este:

De asemenea, puteți efectua acest proces de adăugare utilizând pur și simplu + operator: data_frame_3 = data_frame_1 + data_frame_2.

Descrie

O foarte draguță ursi panda funcția este descrie(), care generează diverse date statistice pentru datele noastre. Pentru exemplul din ultima secțiune, să facem următoarele:

print data_frame_3.describe ()

Rezultatul acestei operațiuni va fi:

Resurse suplimentare

Aceasta era doar o zgârietură a suprafeței de pe Python ursi panda. Pentru mai multe detalii, puteți verifica ursi panda documentație, și puteți verifica, de asemenea, unele cărți cum ar fi Panda de învățare și Mastering Pandas. 

Concluzie

Oamenii de știință, uneori, trebuie să efectueze anumite operații statistice și să afișeze câteva grafice înguste care le impun să utilizeze un limbaj de programare. Dar, în același timp, nu doresc să petreacă prea mult timp sau să se confrunte cu o curbă gravă de învățare în îndeplinirea unor astfel de sarcini. 

După cum am văzut în acest tutorial, ursi panda ne-a permis să reprezentăm datele într-o formă tabelară și să efectuăm câteva operații pe acele tabele într-un mod foarte simplu. combinarea ursi panda cu alte biblioteci Python, oamenii de știință pot face chiar și sarcini mai avansate, cum ar fi desenarea unor grafice specializate pentru datele lor. 

Prin urmare, ursi panda este o bibliotecă foarte utilă și un punct de plecare pentru oamenii de știință, economiști, statisticieni și oricine dorește să efectueze anumite sarcini de analiză a datelor. 

Cod