5. ファイル操作とモジュール¶
本節では、Pythonでファイルを読み書きする方法と、 Pythonファイルの分割と再利用のためモジュールについて説明します。 また、Pythonが用意するモジュールである標準ライブラリも紹介します。
5.1. ファイル操作¶
プログラムには何らかの入出力が不可欠です。ここでは入力元、出力先としてファイルを操作する方法を説明します。
5.1.1. 作業用フォルダの作成と現在のフォルダの移動¶
作業前に、ファイル操作で利用するフォルダ「pycamp」を作成します。
>>> cd ~/
>>> mkdir pycamp
>>> cd pycamp
>>> cd ~
>>> mkdir pycamp
>>> cd pycamp
5.1.2. ファイルのオープン(書き込みモード)¶
まずはPythonでファイルに書き込んでみます。
Pythonでファイルを書き込むために、ファイルを開く必要があります。
Pythonでファイルを開くには open()
関数を使います。
書き込み用にファイルを開く場合には、以下のように引数を指定してファイルを 書き込みモード で開きます。
引数 |
内容 |
---|---|
第1引数 |
ファイルのパス |
第2引数 |
ファイルのモード(この場合は |
encoding引数 |
ファイルの文字コード(この場合は |
以下のように指定して pycamp.txt
というファイルを書き込みモードで開きます( リスト 5.3 )。
>>> f = open('pycamp.txt', 'w', encoding='utf-8')
>>> f
<_io.TextIOWrapper name='pycamp.txt' mode='w' encoding='utf-8'>
open()
関数は、ファイルオブジェクトを返します(リスト 5.3 の場合は f
へ代入しています)。
ファイルオブジェクトを通じて、開いたファイルに対する書き込みや読み込みの操作を行います。
Tip
ファイルが存在しない状態で書き込みモードでファイルを開くと、ファイルが新規に作成されます。
ファイルが存在する場合は、もとの中身が削除されます。大事なファイルの中身を書き込みモードで消さないように注意してください。
5.1.3. ファイルへの書き込み¶
ファイルへ書き込みを行うには、ファイルオブジェクトの .write()
メソッドを使用します。
引数に書き込む文字列を指定します(リスト 5.4)。
.write()
メソッドを実行すると、書き込んだ文字数が返されます。
>>> f.write('Hello')
5
>>> f.write(' Python\n') # 改行を書き込むには \n を指定する
8
>>> f.write('こんにちはPython\n') # 日本語も書き込み可能
12
5.1.4. ファイルのクローズ¶
ファイルを開いた後は閉じる必要があります。ファイルを閉じることにより、ファイルを開くために使われていたシステム資源を解放します。
ファイルを閉じるには、ファイルオブジェクトの .close()
メソッドを呼び出します。
>>> f.close()
リスト 5.3、リスト 5.4、リスト 5.5 の結果、実行環境直下に pycamp.txt
というファイルが次のような内容で作成されます。
Hello Python
こんにちはPython
5.1.5. ファイルの読み込み¶
ファイルの中身を読み込むには、ファイルを読み込みモード(r
)で開きます。
その後ファイルオブジェクトの .read()
メソッドでファイルの中身を読み込みます(リスト 5.7)。
>>> f = open('pycamp.txt', 'r', encoding='utf-8')
>>> f
<_io.TextIOWrapper name='pycamp.txt' mode='r' encoding='utf-8'>
>>> txt = f.read()
>>> print(txt)
Hello Python
こんにちはPython
>>> f.close()
.read()
メソッドは、ファイルの内容の文字列(str
)を返します。
なお、第2引数のデフォルトは読み込みモードなので、 r
の指定は省略できます(リスト 5.8)。
>>> f = open('pycamp.txt', encoding='utf-8')
>>> f
<_io.TextIOWrapper name='pycamp.txt' mode='r' encoding='utf-8'>
5.1.6. 追記モードでの書き込み¶
書き込みモード('w'
)でファイルを開くと、ファイルの内容は常に新しく上書きされます。
リスト 5.4 の書き込みをもう一度行っても、ファイルの内容は 'Hello Python\nこんにちはPython\n'
となります。
すでに存在するファイルを対象に、末尾に追記するには、ファイルを追記モードで開きます。
追記モードでファイルを開くには、 open()
関数の第2引数に 'a'
を指定します(リスト 5.10)。
>>> f = open('pycamp.txt', 'a', encoding='utf-8')
>>> f.write('こんにちは世界\n')
8
>>> f.close()
リスト 5.10 の結果、追記後の pycamp.txt
の内容は次のようになります
Hello Python
こんにちはPython
こんにちは世界
5.2. モジュール¶
ここまでの処理はPythonインタープリタの対話モード上か、1つのPythonファイルに記述して実行してきました。
しかし、対話モード上では処理を残すことができませんし、1つのファイルに記述していると、プログラムが長くなるとどこに何を書いているのかがわからなくなってきます。
処理が長く、複雑になると、複数のファイルに処理を分割する必要があります。役割ごとにファイルを分割することで、それぞれどういった処理をするものかを明確にできます。
Pythonでは他のPythonファイルや関数をインポート(import)して再利用できます。処理を複数のファイルに分割し、必要な処理をインポートして使います。
実行環境直下に calc.py
というファイルを作成して、 add()
、 sub()
関数を定義しましょう(リスト 5.12)。
def add(a, b):
return a + b
def sub(a, b):
return a - b
別のファイルをインポートするには import
文を使います。
Pythonインタープリタを起動して、 calc.py
をインポートしましょう(リスト 5.13)。
>>> import calc
calc
というモジュールがインポートされました。
Pythonファイルをインポートすることでモジュール(module)として再利用できます。
calc
モジュールから add()
関数を使うには、 calc.add()
と呼び出します(リスト 5.14)。
>>> calc.add(1, 2)
3
5.2.1. 関数のインポート¶
add()
関数を直接インポートするには、 from <モジュール> import <インポート対象>
文を使います。
from <モジュール>
の部分にモジュール、 import <インポート対象>
の部分にインポートの対象を書きます(リスト 5.15)。
>>> from calc import add
>>> add(1, 2)
3
5.2.2. 別名をつける¶
インポートした関数やモジュールに別名をつけるには as
を使います。
関数やモジュールが頻繁に使われるのに名前が長い場合に使われます。
import <インポート対象> as <別名>
のように別名を指定します。
calc
モジュールに別名 c
をつけてインポートするには リスト 5.16 のようにします。
>>> import calc as c
>>> c.add(1, 2)
3
5.2.3. 複数の対象をインポート¶
calc
モジュールから add()
、 sub()
関数を一度にインポートするには、
import
文でインポート対象をカンマ区切りで指定します(リスト 5.17)。
>>> from calc import add, sub
>>> add(1, 2)
3
>>> sub(2, 1)
1
また、 リスト 5.18 のように括弧を使っても指定できます。 インポート対象が多い場合は括弧を使った書き方のほうが可読性が高いので、こちらを使います。
>>> from calc import (
... add,
... sub,
... )
5.3. 標準ライブラリの利用¶
Python自体も標準でモジュールを提供しています。これら標準で提供されているモジュールをまとめて標準ライブラリと呼びます。
必要な処理をすべて自分で実装するのでなく、積極的に標準ライブラリを利用しましょう。
標準ライブラリを利用すると重複する実装が減り、コードの記述量を大幅に削減できます。
5.3.1. 日付を扱うモジュール¶
標準ライブラリの1つ datetime
モジュールを取り上げます。
datetime
は日付や時刻を簡単に扱うことができるモジュールです。
ここでは例として日付の計算をします。
datetime.date()
コンストラクタを使って日付を意味するオブジェクトを生成できます。
引数として年、月、日を指定します。
>>> import datetime
>>> d = datetime.date(2016, 12, 23)
>>> print(d.year, d.month, d.day)
2016 12 23
また、 datetime.date.today()
メソッドを使うと今日の日付を取得することができます。
>>> today = datetime.date.today()
>>> print(today) # 実行する日によって結果が異なる
2018-02-17
ここで、自分が生まれてから今日までに何日経過したのかを計算してみましょう。
自分で実装しようとすると、月ごとに日数が違う、うるう年の計算など面倒な計算が必要となりますが、
datetime.date
を使うと面倒な部分をモジュールが肩代わりしてくれます。
>>> birthday = datetime.date(2008, 12, 3) # Python 3.0のリリース日
>>> today = datetime.date.today()
>>> delta = today - birthday # 日付や時刻の差を表すdatetime.timedeltaオブジェクト
>>> print(delta.days) # 実行する日によって結果が異なる
3363
datetime
モジュールは他にも時刻を扱う datetime.time
, 日付と時刻両方を扱う datetime.datetime
など日付や時刻の計算に便利な関数がたくさんあります。
詳しくはPythonの公式ドキュメントの「 datetimeモジュール 」を参考にしてください。
5.3.2. 正規表現モジュール¶
次に標準ライブラリの1つ re
モジュールを扱います。
re
モジュールはPythonで正規表現を扱うためのモジュールです。
re.search()
関数を使って、文字列が正規表現にマッチするか調べられます。第1引数に正規表現、第2引数に対象の文字列を渡します(リスト 5.22)。
>>> import re
>>> m = re.search('(P(yth|l)|Z)o[pn]e?', 'Python')
>>> m
<re.Match object; span=(0, 6), match='Python'>
正規表現にマッチした場合、 re.search()
は結果を表すマッチオブジェクトを返します。
マッチオブジェクトから値を取り出すには、 .group()
メソッドを呼び出します(リスト 5.23)。
>>> m.group()
'Python'
正規表現がグループを含む場合、グループの番号を引数に渡して取り出せます。 引数を指定しないか、0を指定すると、正規表現全体のマッチが返されます(リスト 5.24)。
>>> m = re.search('py(thon)', 'python')
>>> m.group()
'python'
>>> m.group(0)
'python'
>>> m.group(1)
'thon'
正規表現にマッチしない場合は、リスト 5.25 に示すように何も返しません(None
を返します)。
>>> re.search('py', 'ruby')
>>>
コラム: 正規表現の文字列
正規表現の文字列にはPythonのraw文字列を使うのが一般的です。
r
プレフィックスをつけてraw文字列を定義します。
raw文字列ではバックスラッシュを特別扱いしないので、
正規表現中にバックスラッシュを使う際に '\\'
と書く必要がなくなります。
re
モジュールには、ここで説明していない有効な使い方があります。
Pythonの公式ドキュメントの「 reモジュール 」を参考にしてください。
また、他のPython標準ライブラリについては、「 Python標準ライブラリ 」を参考にしてください。
5.4. まとめ¶
本節では、Pythonでファイルを読み書きする方法、Pythonファイルを分割して再利用する方法を解説しました。
また、標準ライブラリである datetime
モジュールや re
モジュールの紹介をしました。