Pandasの基本的な使い方
PandasはPythonのデータ分析ライブラリで、データの操作や分析を容易に行うことができます。以下に基本的な使い方を示します。
まずはPandasをインポートします。
import pandas as pd
次に、Pandasの主要なデータ構造であるDataFrameを作成します。DataFrameは2次元のラベル付きデータ構造で、異なる型の列を持つことができます。
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 24, 35, 32],
'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
これで、以下のようなDataFrameが作成されます。
Name Age City
0 John 28 New York
1 Anna 24 Paris
2 Peter 35 Berlin
3 Linda 32 London
DataFrameから特定の列を選択するには、列の名前を指定します。
ages = df['Age']
DataFrameから特定の行を選択するには、行のインデックスを指定します。
first_row = df.loc[0]
以上がPandasの基本的な使い方です。次のセクションでは、ユニークな行の選択方法について説明します。
ユニークな行を選択する方法
Pandasでは、drop_duplicates
メソッドを使用してDataFrameからユニークな行を選択することができます。このメソッドは、重複した行を削除し、ユニークな行だけを含む新しいDataFrameを返します。
以下に例を示します。
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda', 'John', 'Anna'],
'Age': [28, 24, 35, 32, 28, 24],
'City': ['New York', 'Paris', 'Berlin', 'London', 'New York', 'Paris']
}
df = pd.DataFrame(data)
上記のDataFrameでは、’John’, 28, ‘New York’と’Anna’, 24, ‘Paris’の行が重複しています。これらの重複を削除するには、drop_duplicates
メソッドを使用します。
df_unique = df.drop_duplicates()
これで、以下のようなユニークな行だけを含むDataFrameが作成されます。
Name Age City
0 John 28 New York
1 Anna 24 Paris
2 Peter 35 Berlin
3 Linda 32 London
以上がPandasを使ってユニークな行を選択する方法です。次のセクションでは、特定の列でユニークな行を選択する方法について説明します。
特定の列でユニークな行を選択する方法
Pandasでは、drop_duplicates
メソッドを使用して特定の列でユニークな行を選択することができます。このメソッドは、指定した列に基づいて重複した行を削除し、ユニークな行だけを含む新しいDataFrameを返します。
以下に例を示します。
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda', 'John', 'Anna'],
'Age': [28, 24, 35, 32, 28, 24],
'City': ['New York', 'Paris', 'Berlin', 'London', 'New York', 'Paris']
}
df = pd.DataFrame(data)
上記のDataFrameでは、’Name’列に’John’と’Anna’の行が重複しています。これらの重複を削除するには、drop_duplicates
メソッドに列の名前を指定します。
df_unique = df.drop_duplicates(subset='Name')
これで、以下のような’Name’列がユニークな行だけを含むDataFrameが作成されます。
Name Age City
0 John 28 New York
1 Anna 24 Paris
2 Peter 35 Berlin
3 Linda 32 London
以上がPandasを使って特定の列でユニークな行を選択する方法です。次のセクションでは、実践的な例とその解説について説明します。
実践的な例とその解説
ここでは、実際のデータセットを用いてPandasでユニークな行を選択する方法を示します。この例では、都市ごとの人口データを扱います。
まず、以下のようなデータセットを考えます。
data = {
'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Chicago', 'Los Angeles', 'San Francisco'],
'Population': [8600000, 4000000, 2700000, 8600000, 2700000, 4000000, 880000],
'State': ['NY', 'CA', 'IL', 'NY', 'IL', 'CA', 'CA']
}
df = pd.DataFrame(data)
このDataFrameでは、’New York’, ‘Los Angeles’, ‘Chicago’の行が重複しています。これらの重複を削除するには、drop_duplicates
メソッドに列の名前を指定します。
df_unique = df.drop_duplicates(subset='City')
これで、以下のような’City’列がユニークな行だけを含むDataFrameが作成されます。
City Population State
0 New York 8600000 NY
1 Los Angeles 4000000 CA
2 Chicago 2700000 IL
6 San Francisco 880000 CA
以上がPandasを使って特定の列でユニークな行を選択する実践的な例とその解説です。この方法を使うことで、大量のデータから重複を排除し、分析をより効率的に行うことができます。次のセクションでは、さらに詳細な操作方法について説明します。