サイトアイコン アマチュア無線局JS2IIU

【Pandas】SPSSファイルからDataFrameを作る

こんにちは、JS2IIUです。

DataFrameを作るのに本当に色々な方法があるのだと感心してしまうのですが、今回は統計解析ソフトのSPSSのファイルを読み込む方法についての記事です。今回もよろしくお願いします。

はじめに

SPSS(Statistical Package for the Social Sciences)は、主に社会科学分野で使用される統計解析ソフトウェアです。SPSSで保存されたデータファイル(通常.sav形式)をPandasで直接読み込んで、DataFrameとして扱うことができます。この手順では、Pandasとpyreadstatというライブラリを使って、SPSSファイルをDataFrameに変換する方法を解説します。

SAV – SPSS データファイル

SAV - SPSS データファイル
SAV ファイル形式と,SAV ファイルを作成して開くことができる API について学びます。

1. SPSSファイルをDataFrameに変換する方法

まず、SPSSのデータファイル(.sav)をPandasのDataFrameに変換する方法を見ていきます。pyreadstatライブラリを使用してSPSSファイルを読み込み、DataFrameに変換します。

インストールが必要なライブラリ:

pip install pyreadstat

サンプルコード:

import pandas as pd
import pyreadstat

# SPSSファイルの読み込み
spss_file_path = 'data.sav'

# pyreadstatを使ってSPSSファイルをDataFrameに変換
df, meta = pyreadstat.read_sav(spss_file_path)

# DataFrameの表示
print(df)

このコードでは、pyreadstat.read_sav()関数を使用して、SPSSファイルを読み込んでいます。read_sav()は、SPSSファイルをPandasのDataFrameとして返します。

出力例:

    age  gender    income
0    25    Male     50000
1    30  Female     60000
2    22    Male     45000
3    28  Female     52000

このように、SPSSファイルからPandasのDataFrameに変換することで、Pythonの強力なデータ操作機能を活用できます。

2. SPSSデータの形式について

SPSSのデータファイル(.sav形式)は、統計分析に特化した形式で、複雑なデータ構造や変数のメタデータ(変数名、ラベル、欠損値の定義など)を含むことができます。Pandasでは、pyreadstatライブラリを使用してこれらのデータを読み込むことができます。

SPSSファイルには、以下のような情報が含まれます:

3. 対応しているSPSSのバージョン

pyreadstatライブラリは、SPSSのバージョン6.x以降のファイル形式(.sav)に対応しています。また、pyreadstatは、SPSSのデータ型やラベル、欠損値などの情報を正しく解釈してPandasのDataFrameに変換するため、特に統計解析を行う上で非常に便利です。

4. 制約事項

5. まとめ

SPSSのデータファイルをPandasのDataFrameに変換することで、データの分析や前処理が簡単になります。pyreadstatライブラリを使用することで、SPSSファイルの変数やラベル、欠損値情報などを正しく処理し、Pythonでのデータ操作を効率的に行うことができます。ファイルのバージョンやサイズによる制約があるため、適切な環境で使用することをお勧めします。

参考リンク

少しだけPRです。

Pandasについて詳しく知りたいかた、もっと使いこなしたい方におすすめの本です。数年前に購入しましたが、今も手元に置いて時々見返しています。

「pandasクックブック Pythonによるデータ処理のレシピ」Theodore Petrou著、黒川利明訳。

最後まで読んでいただきありがとうございます。73

モバイルバージョンを終了