今年の春頃から、富士市の記念事業の実行委員会に参加してました。14日に記念事業が開催されてひと段落したので思い出しながらやってきたことや感じたことを残そうかと。
元々男女平等参画の委員会に市民公募として参加したところ、誘っていただいたのが始まりです。
自分はC分科会にサブリーダーの役で参加してました。この分科会のメンバーは多様でスキルも高く、どの方もモチベが高くて圧倒されつつでした。その中で初めから発表まで自分が何を担当してどのようなことをしてきたかをまとめてみます。
。。だけのつもりだったけど、書いていたらだいぶエモくなってしまいまして。。年末だから振り返りたかったし、そういう文章もよいかなと。
なお、記念事業で利用した各分科会の資料は公開されるようなので、後ほどリンクしておきます。
:リンク予定位置:
アンケートを取ることになる
C分科会は働く方向けに男女共同参画をどう感じるかというアンケートをとり、見えてきたものをまとめました。流れとしては
- アンケートを取って分析
- 分析から見えてくることを上げてみる(ブレインストーミングとKJ法に近いやり方)
- そこから事例などを上げて、良い部分はさらに良く、悪い部分は改善策の提案をする
まずアンケートは、紙ベースでやると時間的にとても足りないことが雰囲気でも分かったのでWEBベースのアンケートにしています。
WEBベースのアンケート作成は、Googleが提供するGoogleフォームを利用しました。
Google フォーム - アンケートを作成、分析できる無料サービス
これを使って、協力していただける事業者へ依頼の連絡、チラシを貼ってもらうなどで広告してもらいました。今回は匿名を条件にしたので、属性情報以外の個人情報はとらないことにしました。Googleフォームはメールアドレスを記入しないで無記名回答が機能として備わってるのでその点は非常に楽でした。
アンケートの中身は分科会で考えた聞きたいことをなるべく多くならない程度にまとめてます。結果的に200を超える回答をいただけて、考える上での大事なベースになりました。
(100人ぐらいが山かなと思ってたのもあって、リアルタイムで見ていてビビってた)
アンケート実施の反省点
ただ反省点もたくさんあって、いくつか挙げると
アンケートの仮説がなかった
とりあえず取ってみようから始めたので、後々この結果をどうみればいいか悩むことが多くなりました。発表時のスライドも実は疑問点があるので追試できるような手段も考えたかったですね。
統計的な問題
限定的な依頼先や母数の考慮が検討できなかったので、回収率を示すことができませんでした。おおよそは出せますがそれで良いかも含めて方法論を学ぶべきでした。
生データの活用がしづらくしてしまった
統計的に有効なアンケートだったら富士市を経由してオープンデータとして公開することもできたと思います。
(そもそも統計学的な問題もありますが)このアンケートの概要では、市での参考情報として利用するぐらいしか書いていなかったので、公に公開するのが難しいと判断しています。
アンケート冒頭の自由意見がかなり興味深かったので、グラフ含めて公開して富士市の働く方の雰囲気を見れるようにできたら良かったのですが。。
この辺正直よくわかってないので、オープンデータ界隈の方々にアドバイス欲しいところです。。
如何にして大量のグラフを生成し続けれたか
集計した後は可視化しないと意味がないのですが、約行200*約列20となる情報をグラフにする必要があります。属性ごとにグラフ化する必要もありました。
最初は表計算ソフト(ExcelやGoogleスプレッドシート)でトライしてましたが、数分で嫌になって断念してます。
大量のデータをひとつづつグラフ化するには手作業では時間がかかりすぎて、マクロなどでの自動化も考えてまして、ただそうなると(プログラミング言語の)Pythonでデータ分析も候補でしたが、最近Pandas(データ操作)もmatplotlib(グラフ作成)も扱ってなかったので自信なくどうしたものかと。
その時にたまたまTwitter経由で知った、BIツールという手段を使ってみることにしました。BIツール(Business Intelligenceツール)は集めた/集めているデータを元に経営での意思決定に役立てられるツールです。経営で見るべき指標を作るサポートをしてくれます。
たとえば、Power BIやtableauです。他にも専門的に特化したものもあります。
今回はGoogleスプレッドシートと相性がいいGoogleデータポータルを使うことにしました。GoogleもBIツールを提供されているのは知らかったのですが、主にGoogle広告やWEBサイトのアクセス解析(Googleアナリシス)向けで、マーケティングのツールとして用意されてます。
ダッシュボード作成、データ視覚化ツール - Google データポータル
データポータルは、グラフの元の情報源(データソース)と接続する機能がありますが、Googleスプレッドシートとの連携も楽にできて、グラフの種類も豊富、フィルターによるリアルタイムな操作もできます。
試行錯誤しつつですが(ちょうどPyCon JP 2019参加中の夜に)グラフをひたすら作りました。最初のバージョンは3日程度で、こんな量のグラフを短時間で用意するのは普通Excelでは難しいでしょう。可視化に特化したツールがこれほど扱いやすいものと気がつけたのは良い発見です。
Googleデータポータルを使いつつ学んだこと
その他、気がついたことをまとめると
データの正規化は計画してやるべき
数字で取れるものは数字としてあつかうべきでした。後でデータの置き換え作業でミスすると不正確なデータを作ってしまいます。
それと、指標の系列を出す場合(折れ線グラフだと各折れ線のことを系列といいます)、添字がないと並び替えがしづらいので、あらかじめアンケート側にも入れておいても良かったです。
非破壊でのデータ操作を望むなら、各列のデータ項目(フィールドと言われてます)で使える関数機能を使って、CASE文(条件に当てはまるデータを別の内容に置き換える機能)を使うと良いです。
(やっつけな例)
また、複数項目選択可能な回答はPythonを使って、行ごとに振られてるIDと回答1つ1つを紐付けたキーバリュー的(ここで言うIDと回答をセットにしたデータ)なデータを作りました。(ID1->A,B
の対応をID1->A, ID1->B
のように分離してそれぞれ行データとして収める)
分離したデータもGoogleデータポータルのデータ統合機能でまとめることができます。
なんとかなりましたが、Googleフォームは複数回答の集計をカンマで区切った文字列として表現されてしまうので、この辺のサポートがもうちょっと欲しいですね。(プログラムで自動処理させないと何日かけないと行けない作業です。。)
ディメンションと指標をまず学ぶ
「ディメンション」は情報を数字として見たい項目、「指標」は数字として集計したい集合のことです。数字は合計や件数、合計や平均値、中央値や標準偏差が見れます。
Googleデータポータルを楽しむためのBIツール10の基礎概念。 | アレコレメモ
聴き慣れない2つの言葉を理解しながら操作してたのでよく間違えました。散布図はそれなりに簡単に出ますが、棒グラフですらやり方を間違えると想像を超えるものになりますw
BIツールの入門的な記事をみてなんとか想像したグラフを用意できたかなと。
統計的な処理を一応学び直す
といっても分布の検討とか、平均値と中央値を見て平均値が妥当かをみるとかで復習してたぐらいです。。 検定をしたかったデータもありましたが、能力的(統計学ちゃんとやってないのもあって自身がなく)にも時間も限られていたので断念。
フィルターはフィルタオプションを使うのが非常に便利
リアルタイムにグラフを変化させて比較もできます。今回のアンケートは回答者の属性情報も聞いていたので、フィルターもよく使いました。
最初はグラフごとの備わっているフィルター機能を使ってましたが、1つづつフィルターを設定するのがかなり面倒です。
ただGoogleデータポータルは、フィルタオプションという機能があります。この機能は動的にフィルターを操作する機能で、グラフとセットで使います。グラフを集めた1つのページ単位や、グラフとセットでグループ化することにより、ページの中に複数のフィルター機能を用意できます。
これに気がついたのはグラフを大体作成したあとだったので惜しいことをしました。もうちょっと楽できたのですがw
困った部分
グラフの生成はほとんど苦労がなくなったのですが困りごとも。必要だと思われそうなものが用意されていないのがちょっと不思議です。
印刷に最適化されていない
印刷がモノクロやグレースケールだと指標の結果が見づらい。GoogleデータポータルはWEB特化だなと感じつつ、添字を用意して図形に文字を入れてグラフの上に置きました。この辺どうにかしてほしい。。
フォント選択の幅が少ない
分科会メンバーでゴシックが見づらいという方がいたので、フォントを丸みが多いものにしたかったものの、Comic Serifしかなかったので断念。WEBフォントが使えるようになってほしい。
後編に続く
後編は発表までと感じたことです。エモいです。