Pandasの基本的な操作
PandasはPythonでデータ分析を行うための強力なライブラリです。以下に、Pandasを使用してデータを操作する基本的な手順を示します。
まず、Pandasライブラリをインポートします。
import pandas as pd
次に、データフレームを作成します。データフレームは、行と列からなる2次元のデータ構造です。
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 24, 35, 32],
'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
データフレームの先頭のデータを表示するには、head()
関数を使用します。
df.head()
特定の列を選択するには、列名を指定します。
df['Name']
これらはPandasの基本的な操作の一部です。次のセクションでは、条件に合う行を抽出する方法について説明します。
条件に合う行を抽出する方法
Pandasでは、特定の条件を満たす行を抽出することが可能です。以下にその方法を示します。
まず、年齢が30歳以上の人を抽出する例を見てみましょう。
df[df['Age'] >= 30]
このコードは、’Age’列の値が30以上のすべての行を抽出します。
また、特定の都市に住んでいる人を抽出することも可能です。例えば、’City’列が’Paris’の人を抽出するには以下のようにします。
df[df['City'] == 'Paris']
これらの操作を組み合わせることで、複数の条件を満たす行を抽出することも可能です。例えば、年齢が30歳以上で、かつパリに住んでいる人を抽出するには以下のようにします。
df[(df['Age'] >= 30) & (df['City'] == 'Paris')]
このように、Pandasを使えばデータフレームから特定の条件を満たす行を効率的に抽出することができます。次のセクションでは、特定の条件を満たす要素数をカウントする方法について説明します。
特定の条件を満たす要素数をカウントする方法
Pandasでは、特定の条件を満たす要素の数をカウントすることができます。以下にその方法を示します。
まず、年齢が30歳以上の人の数をカウントする例を見てみましょう。
(df['Age'] >= 30).sum()
このコードは、’Age’列の値が30以上の要素の数をカウントします。
また、特定の都市に住んでいる人の数をカウントすることも可能です。例えば、’City’列が’Paris’の人の数をカウントするには以下のようにします。
(df['City'] == 'Paris').sum()
これらの操作を組み合わせることで、複数の条件を満たす要素の数をカウントすることも可能です。例えば、年齢が30歳以上で、かつパリに住んでいる人の数をカウントするには以下のようにします。
((df['Age'] >= 30) & (df['City'] == 'Paris')).sum()
このように、Pandasを使えばデータフレームから特定の条件を満たす要素の数を効率的にカウントすることができます。次のセクションでは、複数条件を満たす行を抽出する方法について説明します。
複数条件を満たす行を抽出する方法
Pandasでは、複数の条件を満たす行を抽出することが可能です。以下にその方法を示します。
まず、年齢が30歳以上で、かつニューヨークに住んでいる人を抽出する例を見てみましょう。
df[(df['Age'] >= 30) & (df['City'] == 'New York')]
このコードは、’Age’列の値が30以上で、かつ’City’列の値が’New York’のすべての行を抽出します。
また、年齢が25歳以下、またはロンドンに住んでいる人を抽出することも可能です。以下のようにします。
df[(df['Age'] <= 25) | (df['City'] == 'London')]
このコードは、’Age’列の値が25以下、または’City’列の値が’London’のすべての行を抽出します。
このように、Pandasを使えばデータフレームから複数の条件を満たす行を効率的に抽出することができます。次のセクションでは、実用的な例とその応用について説明します。
実用的な例とその応用
これまでに学んだPandasの操作を組み合わせて、より実践的なデータ分析を行うことができます。以下にその一例を示します。
例えば、ある製品の売上データがあり、特定の条件を満たす製品の売上合計を知りたいとします。以下のようなデータフレームがあるとします。
data = {
'Product': ['Apple', 'Banana', 'Cherry', 'Date', 'Elderberry'],
'Sales': [345, 200, 150, 500, 450],
'Region': ['East', 'West', 'East', 'North', 'South']
}
df = pd.DataFrame(data)
このデータフレームから、東部地域での売上合計を計算するには以下のようにします。
east_sales = df[df['Region'] == 'East']['Sales'].sum()
print(east_sales)
また、売上が300以上の製品の数をカウントするには以下のようにします。
high_sales_count = (df['Sales'] >= 300).sum()
print(high_sales_count)
このように、Pandasを使えば複雑な条件を満たすデータの抽出や集計を効率的に行うことができます。これらの技術は、データ分析や機械学習の前処理など、様々な場面で役立ちます。