Pandasの基本的な使い方

PandasはPythonのデータ分析ライブラリで、データの操作や分析を容易に行うことができます。以下に基本的な使い方を示します。

まずはPandasをインポートします。

import pandas as pd

次に、Pandasの主要なデータ構造であるDataFrameを作成します。DataFrameは2次元のラベル付きデータ構造で、異なる型の列を持つことができます。

data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 24, 35, 32],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)

これで、以下のようなDataFrameが作成されます。

   Name  Age       City
0  John   28   New York
1  Anna   24      Paris
2 Peter   35     Berlin
3 Linda   32     London

DataFrameから特定の列を選択するには、列の名前を指定します。

ages = df['Age']

DataFrameから特定の行を選択するには、行のインデックスを指定します。

first_row = df.loc[0]

以上がPandasの基本的な使い方です。次のセクションでは、ユニークな行の選択方法について説明します。

ユニークな行を選択する方法

Pandasでは、drop_duplicatesメソッドを使用してDataFrameからユニークな行を選択することができます。このメソッドは、重複した行を削除し、ユニークな行だけを含む新しいDataFrameを返します。

以下に例を示します。

data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda', 'John', 'Anna'],
    'Age': [28, 24, 35, 32, 28, 24],
    'City': ['New York', 'Paris', 'Berlin', 'London', 'New York', 'Paris']
}
df = pd.DataFrame(data)

上記のDataFrameでは、’John’, 28, ‘New York’と’Anna’, 24, ‘Paris’の行が重複しています。これらの重複を削除するには、drop_duplicatesメソッドを使用します。

df_unique = df.drop_duplicates()

これで、以下のようなユニークな行だけを含むDataFrameが作成されます。

   Name  Age       City
0  John   28   New York
1  Anna   24      Paris
2 Peter   35     Berlin
3 Linda   32     London

以上がPandasを使ってユニークな行を選択する方法です。次のセクションでは、特定の列でユニークな行を選択する方法について説明します。

特定の列でユニークな行を選択する方法

Pandasでは、drop_duplicatesメソッドを使用して特定の列でユニークな行を選択することができます。このメソッドは、指定した列に基づいて重複した行を削除し、ユニークな行だけを含む新しいDataFrameを返します。

以下に例を示します。

data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda', 'John', 'Anna'],
    'Age': [28, 24, 35, 32, 28, 24],
    'City': ['New York', 'Paris', 'Berlin', 'London', 'New York', 'Paris']
}
df = pd.DataFrame(data)

上記のDataFrameでは、’Name’列に’John’と’Anna’の行が重複しています。これらの重複を削除するには、drop_duplicatesメソッドに列の名前を指定します。

df_unique = df.drop_duplicates(subset='Name')

これで、以下のような’Name’列がユニークな行だけを含むDataFrameが作成されます。

   Name  Age       City
0  John   28   New York
1  Anna   24      Paris
2 Peter   35     Berlin
3 Linda   32     London

以上がPandasを使って特定の列でユニークな行を選択する方法です。次のセクションでは、実践的な例とその解説について説明します。

実践的な例とその解説

ここでは、実際のデータセットを用いてPandasでユニークな行を選択する方法を示します。この例では、都市ごとの人口データを扱います。

まず、以下のようなデータセットを考えます。

data = {
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York', 'Chicago', 'Los Angeles', 'San Francisco'],
    'Population': [8600000, 4000000, 2700000, 8600000, 2700000, 4000000, 880000],
    'State': ['NY', 'CA', 'IL', 'NY', 'IL', 'CA', 'CA']
}
df = pd.DataFrame(data)

このDataFrameでは、’New York’, ‘Los Angeles’, ‘Chicago’の行が重複しています。これらの重複を削除するには、drop_duplicatesメソッドに列の名前を指定します。

df_unique = df.drop_duplicates(subset='City')

これで、以下のような’City’列がユニークな行だけを含むDataFrameが作成されます。

          City  Population State
0     New York     8600000    NY
1  Los Angeles     4000000    CA
2      Chicago     2700000    IL
6 San Francisco     880000    CA

以上がPandasを使って特定の列でユニークな行を選択する実践的な例とその解説です。この方法を使うことで、大量のデータから重複を排除し、分析をより効率的に行うことができます。次のセクションでは、さらに詳細な操作方法について説明します。

投稿者 kitagawa

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です