În acest tutorial voi da o introducere de bază la ursi panda. Nu vreau să spun panda de animale, ci o bibliotecă Python!
După cum sa menționat pe site-ul web pandas:
pandas este o bibliotecă licențiată cu licență BSD, care oferă structuri de date performante și ușor de utilizat și instrumente de analiză a datelor pentru limbajul de programare Python.
Prin urmare, ursi panda
este o bibliotecă de analiză a datelor care are structurile de date de care avem nevoie pentru a curăța datele brute într-o formă care este potrivită pentru analiză (adică tabele). Este important de reținut că de atunci ursi panda
îndeplinește sarcini importante, cum ar fi alinierea datelor pentru compararea și combinarea seturilor de date, manipularea datelor lipsă etc., a devenit o bibliotecă de facto pentru procesarea de date la nivel înalt în Python (adică statistici). Bine, ursi panda
a fost conceput inițial pentru a gestiona datele financiare, cu condiția ca alternativa obișnuită să fie utilizarea unei foi de calcul (adică Microsoft Excel).
Structura de date de bază a ursi panda
se numește DataFrame
, care este o colecție ordonată de coloane cu nume și tipuri, arătând astfel ca un tabel de bază de date în care un singur rând reprezintă un singur caz (exemplu) și coloanele reprezintă atribute particulare. Trebuie menționat faptul că elementele din diferite coloane pot fi de diferite tipuri.
Deci, linia de jos este că ursi panda
biblioteca ne furnizează structurile și funcțiile de date necesare pentru analiza datelor.
Să vedem acum cum putem instala ursi panda
pe mașinile noastre și să le folosim pentru analiza datelor. Cel mai simplu mod de a instala ursi panda
și de a evita orice probleme de dependență este prin utilizarea Anaconda care ursi panda
face parte din. Așa cum am menționat în pagina de descărcare Anaconda:
Anaconda este o distribuție Python complet liberă (inclusiv pentru utilizare comercială și redistribuire). Acesta include mai mult de 400 de pachete Python cele mai populare pentru știință, matematică, inginerie și analiză de date
Distribuția Anaconda este încrucișată, ceea ce înseamnă că poate fi instalat pe mașini OS X, Windows și Linux. Voi folosi programul de instalare OS X de când lucrez la o mașină Mac OS X El Capitan, dar, bineînțeles, puteți alege programul de instalare potrivit pentru sistemul dvs. de operare. Voi merge cu instalatorul grafic (fii atent, este de 339 MB).
Anaconda Mac OS X instalator graficDupă ce descărcați programul de instalare, pur și simplu parcurgeți pașii expertului de instalare simplă și sunteți toți setați!
Tot ce trebuie să facem acum pentru a folosi ursi panda
este de a importa pachetul după cum urmează:
pandele de import ca pd
Am menționat unul dintre cei trei ursi panda
structurile de date de mai sus, DataFrame
. Voi descrie această structură de date în această secțiune în plus față de cealaltă ursi panda
structură de date, Serie
. Există o altă structură de date numită Panou
, dar nu o voi descrie în acest tutorial, deoarece nu este atât de frecvent utilizat, așa cum se menționează în documentație. DataFrame
este o structură de date 2D, Serie
este o structură de date 1D și Panou
este o structură de date 3D și mai mare.
DataFrame
este o structură de date tabulară compusă din coloane și rânduri comandate. Pentru a face lucrurile mai clare, să examinăm exemplul creării unui DataFrame
(tabel) dintr-un dicționar de liste. Următorul exemplu prezintă un dicționar format din două chei, Nume și Vârstă, și lista corespunzătoare a valorilor.
panda import ca pd import numpy ca np name_age = 'Nume': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam' 30] data_frame = pd.DataFrame (name_age) imprimă data_frame
Dacă executați scriptul de mai sus, ar trebui să obțineți o ieșire similară cu următoarea:
Observați că DataFrame
constructorul comandă coloanele în ordine alfabetică. Dacă doriți să modificați ordinea coloanelor, puteți introduce următoarele sub data_frame
de mai sus:
data_frame_2 = pd.DataFrame (name_age, columns = ['Name', 'Age'])
Pentru a vizualiza rezultatul, tastați pur și simplu: print_frame_2
.
Spuneți că nu doriți să utilizați etichetele implicite 0,1,2, ... și doriți să utilizați a, b, c, ... în schimb. În acest caz, puteți utiliza index
în scriptul de mai sus, după cum urmează:
date_frame_2 = pd.DataFrame (numele_grupă, coloane = ['Nume', 'Vârstă'], index = ['a', 'b', 'c', 'd'
A fost foarte frumos, nu-i așa? Utilizarea DataFrame
, am reușit să vedem datele noastre organizate într-o formă tabelară.
Serie
este al doilea ursi panda
structura de date pe care o voi vorbi. A Serie
este un obiect unidimensional (1D) similar cu o coloană din tabel. Dacă vrem să creăm a Serie
pentru o listă de nume, putem face următoarele:
seria = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], index = [1, 2, 3, 4, 5]
Rezultatul acestui script ar fi după cum urmează:
Observați că am folosit-o index
pentru a eticheta datele. În caz contrar, etichetele implicite vor începe de la 0,1 ...
În această secțiune, vă voi arăta exemple de funcții pe care le putem folosi DataFrame
și Serie
.
Funcțiile cap()
și coadă()
ne permite să vedem un eșantion de date, mai ales atunci când avem un număr mare de intrări. Numărul implicit de elemente care se afișează este de 5, dar puteți reveni la numărul personalizat dorit.
Să presupunem că avem a Serie
compus din 20.000 de articole aleatoare (numere):
import pandas ca import pd numpy ca np series = pd.Series (np.random.randn (20000))
Utilizarea cap()
și coadă()
metodele de urmărire a primului și ultimului cinci articole, respectiv, putem face următoarele:
imprimare series.head () print series.tail ()
Ieșirea din acest script ar trebui să fie ceva similar cu următorul (observați că ați putea avea valori diferite de când generăm valori aleatorii):
Să luăm un exemplu de adăuga()
funcția în care vom încerca să adăugăm două rame de date după cum urmează:
pandele de import ca pd dicționar_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = , 7, 6, 1, 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dicționar_1) data_frame_2 = pd.DataFrame_data_frame_3 = data_frame_1.add (data_frame_2) print_frame_1 tipăriți data_frame_2 tipăriți data_frame_3
Rezultatul scriptului de mai sus este:
De asemenea, puteți efectua acest proces de adăugare utilizând pur și simplu +
operator: data_frame_3 = data_frame_1 + data_frame_2
.
O foarte draguță ursi panda
funcția este descrie()
, care generează diverse date statistice pentru datele noastre. Pentru exemplul din ultima secțiune, să facem următoarele:
print data_frame_3.describe ()
Rezultatul acestei operațiuni va fi:
Aceasta era doar o zgârietură a suprafeței de pe Python ursi panda
. Pentru mai multe detalii, puteți verifica ursi panda
documentație, și puteți verifica, de asemenea, unele cărți cum ar fi Panda de învățare și Mastering Pandas.
Oamenii de știință, uneori, trebuie să efectueze anumite operații statistice și să afișeze câteva grafice înguste care le impun să utilizeze un limbaj de programare. Dar, în același timp, nu doresc să petreacă prea mult timp sau să se confrunte cu o curbă gravă de învățare în îndeplinirea unor astfel de sarcini.
După cum am văzut în acest tutorial, ursi panda
ne-a permis să reprezentăm datele într-o formă tabelară și să efectuăm câteva operații pe acele tabele într-un mod foarte simplu. combinarea ursi panda
cu alte biblioteci Python, oamenii de știință pot face chiar și sarcini mai avansate, cum ar fi desenarea unor grafice specializate pentru datele lor.
Prin urmare, ursi panda
este o bibliotecă foarte utilă și un punct de plecare pentru oamenii de știință, economiști, statisticieni și oricine dorește să efectueze anumite sarcini de analiză a datelor.