PL/pgSQL で、第ｘＮ分位数を得る集約関数を定義する（その１）::Y’s Blog

<<次の記事　前の記事>>

2012,10,19, Friday

PL/pgSQL で、第ｘＮ分位数を得る集約関数を定義する（その１）

author : 脇田洋志

　わきたは、仕事柄、統計量を扱う機会が多々あります。　典型的には、毎年の春闘時に要求案を検討する際、賃金の産別水準／自組織内水準双方の代表値（＝要約的統計量）を算出して比較する、という作業が欠かせません。

　この賃金水準比較、22歳（新卒入社者）～59歳（定年直前）までの１歳刻みの年齢ごとに双方の代表値を比較するのですが、その代表値として何を使うべきでしょうか。
　すぐに思いつくのは「平均値」ですね。　「産別の35歳の平均賃金は○○万円。　これに対してウチの平均は××万円だから、ウチの35歳の賃金はちょっと低いね」なんて分析は、容易に想像できると思います。
　しかし、これだとちょっとまずい場合があります。

　
　産別には50万人以上の組合員がいますから、例えば「基幹職種35歳」だけを取り出しても数万人の母数があります。　この場合、平均値は、その集団を代表する値として充分に意味を持つでしょう。
　いっぽう、わきたの組織の組合員数は総勢300人程度。　ここから職種と年齢を限定して取り出すと、実在者が数人しかいないことがあります。　この場合、平均値はこの集団の水準を必ずしも的確には表わしません。　１人だけ、何か特別な理由で、賃金が他に較べて跳び抜けて高い（低い）人間が混ざっていたとすると、母数が数人しかいない場合には、平均値がこの人の賃金額（特異値）に引っ張られてしまうからです。
　このようなとき、平均値に代えてよく使われるのが第ｘＮ分位数です。　「第１四分位（だいいちしぶんい）」や「第９十分位（だいきゅうじゅうぶんい）」などという言葉、聞いた憶えはありませんか？
　代表値を得ようとするある集団の個々の要素の値を、小さいほうから順に並べます。　次に要素の並びをＮ等分し、小さいほうから数えてｘ番目の区切りにあたる要素の値を取り出すと、これが第ｘＮ分位数。　例えば「第１四分位」は、その集団の下から25％の位置にいる要素の値であり、「第３四分位」は下から75％（すなわち上から25％）の位置にいる要素の値、ということになります。
　第１四分位数は下位25％の値であり、これより低い値を持つ要素数は全体の25％、同様に第３四分位数は上位25％の値であり、これより高い値を持つ要素数は全体の25％。　ということは、第１四分位数と第３四分位数との間に下位25％／上位25％を除いた残り「中位50％」の要素の値が含まれることとなり、これは「ゾーンとして」この集団を充分に代表しているとみなすことができ、また跳び抜けて高い（低い）特異値の影響も排除できます。
　第１四分位と第３四分位で挟まれた中位50％のゾーンが、比較基準（先の例で言えば、産別の職種・年齢別平均賃金額）と較べてどうなのか、というような分析に重宝するのです。

　わきたは昔、第１および第３四分位を算出する Excel VBA の Function を作成して、使っていました。　その後、全組合員の賃金データを PostgreSQL でデータベース化しましたが、しばらくの間は、賃金データをクライアントＰＣにダウンロードして、Excel で算出していました。
　手間を省くために、これを PostgreSQL 上でダイレクトに求めたいと思うのは、人情でしょう。
　複数レコードにわたるデータからそれらの代表値を求めるためには「集約関数」を使いますが、PostgreSQL ではこの集約関数をユーザが手続き言語を使って定義することができるのです（PostgreSQL のドキュメントによれば、組み込み済みの集約関数である min()・max() なども、このしくみにより定義されているというから驚き！）。
　そこで、PostgreSQL のこのしくみを利用して、第ｘＮ分位数を求める集約関数を作成することにしたのです。

　手続き言語としては、使い慣れた PL/pgSQL を使用することとしました。　関数の仕様について、どうせ作るなら第ｘ四分位数でも第ｘ十分位数にでも対応したい。　そこで、０～１の実数を引数として与え、全体のどの位置の値でも取り出せるようにしました。　この引数に 0.25 を与えれば第１四分位、0.9 を与えれば第９十分位になります。　ちなみに、0.5 を与えることで中央値（中位数、メジアン）が、0.0 で最小値（min）、1.0 で最大値（max）が、それぞれ得られます。

　当初は、この仕様をそのまま集約関数とすることを考えていました。　しかし、実装を検討していくうちに、複数レコードにわたるデータを扱う部分（集約演算部分）は、単にレコード毎に投入されるデータをソートして配列に格納し保持する処理のみで良い、ということに気付きました。　複数レコードにわたるデータが集約関数によりソートされて配列に格納されれば、そこから第ｘＮ分位数を取り出す演算は後処理で行えば良く、従って集約関数である必要はありません。
　これによる副次効果として、同じくソートされたデータをもとに算出する「ジニ係数」を求める関数も、簡単に実装することができました。

　~~後日、~~そのソースリストを~~載せます。~~　後の記事に載せました。

| http://blog.wakita.cc/index.php?e=84 |
| サーバ・Linux::PostgreSQL | 06:58 PM | comments (0) | trackback (0) |

コメント

コメントする

name:

email:

URL:

comments:

Cookieに登録

この記事のトラックバックURL

http://blog.wakita.cc/tb.php/84

トラックバック

PAGE TOP ↑

		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31