describe関数の概要
pandasのdescribe
関数は、データフレームの各列に対して基本的な統計的記述を提供します。これには、平均、中央値、最小値、最大値、標準偏差などが含まれます。この関数は、データの初期探索や理解を迅速に進めるのに非常に便利です。
基本的な使用法は以下の通りです:
df.describe()
ここで、df
はあなたのpandasデータフレームです。
デフォルトでは、describe
関数は数値型の列のみを考慮しますが、include
パラメータを使用することで、他のデータ型の列に対する記述統計を取得することも可能です。これについては後述します。
次に、この関数がどのように動作し、どのように使用するかについて詳しく見ていきましょう。
引数’include’の使い方
describe
関数のinclude
引数は、どのデータ型の列を統計的記述に含めるかを制御します。デフォルトでは、describe
関数は数値型の列のみを考慮しますが、include
パラメータを使用することで、他のデータ型の列に対する記述統計を取得することも可能です。
以下に、include
引数の使用例を示します:
df.describe(include='all')
上記のコードは、データフレームdf
のすべての列(数値型、カテゴリ型、オブジェクト型など)に対する記述統計を出力します。
また、特定のデータ型のみを指定することも可能です。例えば、以下のコードはオブジェクト型の列のみを対象とします:
df.describe(include=['object'])
このように、include
引数を使用することで、describe
関数の挙動を細かく制御し、データ分析のニーズに合わせて統計的記述を取得することが可能です。次に、この関数の他の引数とその使用方法について見ていきましょう。
引数’percentiles’の使い方
describe
関数のpercentiles
引数は、表示するパーセンタイルを制御します。デフォルトでは、25%, 50%, 75%のパーセンタイルが表示されますが、percentiles
引数を使用することで、任意のパーセンタイルを表示することが可能です。
以下に、percentiles
引数の使用例を示します:
df.describe(percentiles=[.20, .40, .60, .80])
上記のコードは、データフレームdf
の各数値型の列に対して、20%, 40%, 60%, 80%のパーセンタイルを計算し、それらを出力します。
このように、percentiles
引数を使用することで、describe
関数の挙動を細かく制御し、データ分析のニーズに合わせて統計的記述を取得することが可能です。次に、この関数の他の引数とその使用方法について見ていきましょう。
describe関数の出力結果の解釈
describe
関数の出力は、各列に対する基本的な統計的記述を含むデータフレームです。以下に、各統計量の意味を説明します:
count
:非欠損値の数を示します。mean
:平均値を示します。std
:標準偏差を示します。これは、データが平均からどれだけ散らばっているかを示す指標です。min
:最小値を示します。25%
:第一四分位数を示します。これは、データの下位25%がこの値以下であることを意味します。50%
:中央値(または第二四分位数)を示します。これは、データの中央値を示します。75%
:第三四分位数を示します。これは、データの上位25%がこの値以上であることを意味します。max
:最大値を示します。
これらの統計量は、データの分布、中心傾向、散らばり具合を理解するのに役立ちます。これらを適切に解釈することで、データの特性をより深く理解することが可能です。次に、この関数の他の引数とその使用方法について見ていきましょう。
実用的な例
以下に、pandasのdescribe
関数を使用した実用的な例を示します:
import pandas as pd
# データフレームの作成
data = {
'A': [1, 2, 3, 4, 5],
'B': ['a', 'b', 'a', 'b', 'a'],
'C': [1.2, 3.4, 5.6, 7.8, 9.0]
}
df = pd.DataFrame(data)
# describe関数の使用
desc = df.describe(include='all')
print(desc)
上記のコードは、数値型の列A
とC
、オブジェクト型の列B
を持つデータフレームdf
を作成し、describe
関数を使用して各列の記述統計を出力します。include='all'
とすることで、すべての列を対象にします。
このように、describe
関数はデータの初期探索や理解を迅速に進めるのに非常に便利です。引数を適切に設定することで、必要な情報を効率的に取得することが可能です。この関数を活用して、データ分析をより効果的に行いましょう。