有料メルマガ購読申し込み

テレビ、ラジオ、Twitter、ニコニコ生放送、Ustream……。マスメディアからソーシャルメディアまで、新旧両メディアで縦横無尽に活動するジャーナリスト/メディア・アクティビストの津田大介が、日々の取材活動を通じて見えてきた「現実の問題点」や、激変する「メディアの現場」を多角的な視点でレポートします。津田大介が現在構想している「政策にフォーカスした新しい政治ネットメディア」の制作過程なども随時お伝えしていく予定です。

■発行周期
毎月 第1〜第4金曜日
※GW、年末年始を除く
■発行形式
・テキストメール(niconicoブロマガ/夜間飛行/まぐまぐ)
・EPUB(夜間飛行/niconicoブロマガ)
・Kindle mobi(夜間飛行)
・ウェブ(タグマ!/Magalry)※スマホにも対応
■購読料
月額648円
※1配信あたり162円

「メディアの現場」は、以下のメルマガスタンドからご購読頂けます。

  • niconico
  • 夜間飛行
  • まぐまぐ
  • タグマ!

特別企画:インターネット世論調査はどうあるべきか?(津田大介の「メディアの現場」Vol.66 より)

津田マガ記事


 

(※この記事は2013年2月22日に配信されたメルマガの「特別企画 インターネット世論調査はどうあるべきか?」から抜粋したものです)

 

特別企画「インターネット世論調査はどうあるべきか?」

ゼゼヒヒのリリースから1カ月以上が経過し、少しずつ外の人から「ゼゼヒヒのシステムを使って何かコラボレーションできないか?」というご依頼をいただくようになりました。一方、システムや設問についてはまだまだ発展途上段階にあるという意識も、作り手としては強く持っています。討論型世論調査や統計、計量経済学といった分野のノウハウを入れ、世論の上澄みをうまい形で吸い取ることができるプラットフォームに早くするにはどうすればいいか。今回は統計を駆使した手法でメディアや若者論について鋭い論考を発表し続けている後藤和智さん(@kazugoto)に、「あえてゼゼヒヒの現状を批判的に分析し、今後有用な調査媒体となるには何が必要なのか」というテーマで原稿を依頼しました。ゼゼヒヒのみならず、ネットの世論調査が抱えている問題についての分析と、今後向かうべき方向性についての貴重な論考になっています。データ・ジャーナリズムともつながってくる部分もありますので、ゼゼヒヒを普段利用されている方も、そうでない方も、興味深く読んでいただけると思います。

 

「インターネット世論調査はどうあるべきか?」
後藤和智(同人サークル「後藤和智事務所OffLine」代表)

 

1. 私が「ゼゼヒヒ」に投稿しない理由

津田マガの読者に向けてこういうことを言うのは失礼かもしれないが、私はインターネット国民投票「ゼゼヒヒ」[*1]に投稿したことはないし、少なくとも当該サービスが現状のまま続くのであればおそらく今後も投稿しないだろう。理由はいたって単純で、私が当該サービスに「社会問題をダシにした大喜利ツール」以外の価値を見出していないという理由に尽きる。

そもそもこのツールは、管理者が設定した問題に対して2つの回答が提示され、それに対してどちらの意見に近いかと言うことを投稿し、さらに希望すればその理由を書けるというものであるが、私はツイッターなどのソーシャルメディアをそれなりの目的を持って使っているという意識が強いので、このような「回答する」という行為によってつながりを持ったり、あるいは何らかの問題を語る雰囲気に「参加する」というものにはあまり向いていないと考えている。「大喜利」を楽しむにはいいかもしれないが、社会問題が題材となるとどうも違和感を覚えるのである。

もちろんこのようなサービスが、メディアで取り上げられているような問題について個々に「語る」ことへのハードルを下げているという側面はあるだろう。また、設問に対して、最初に意見を表明させるというのは、従前のニュースへのコメントシステム——たとえばヤフーニュースなどにはあまり見られない取り組みだろう。その点では評価できるとは思う。しかし、現状のゼゼヒヒでは、「多様な意見がありますね、はいおしまい」で終わってしまう可能性が高いのではないかと危惧している。

 

2. ニコ割アンケートは「世論調査」たり得るか?

インターネット上の意見集約システムというと、ニコニコ動画が行っているアンケート調査「ニコ割アンケート」[*2] があるが、私はこれにも懐疑的である。

まず、サンプリングの問題が挙げられる。通常の世論調査であれば、たとえば朝日新聞社の行う調査では、「朝日RDD」方式という、ランダムに作成した電話番号に電話をかけて調査を行うという方法が採用されている [*3] 。このような電話調査に対しては、固定電話がなく携帯電話しか持っていない若い世代の意見を無視している、という批判も多い。しかし、毎日新聞世論調査室の福田昌史氏によると、面接方式の世論調査で電話の所持状況について問うたところ、携帯電話しか持っていない層は、全体では5%、20代と30代では全体よりは格段に多いものの、それでもそれぞれ20代が17%、30代が14%に過ぎないという結果が出ている。つまり、若年層であっても固有電話を持っている人が大半だということだ。そして、携帯電話しか持っていない層と固定電話を持っている層の意識の違いを比較したところ、面接調査の全83項目中64項目は同じで、19項目で数字が1ポイント異なっただけだったという [*4]

むろん、今後携帯電話しか持たない層が増えていくことはあるだろうが、少なくとも現状の世論調査に「携帯電話しか持っていない層の意見」を織り込んだところで、結果に大した違いは現れない可能性が高い。また、ニコ割アンケートによる調査のようなものは、ニコニコ動画の視聴中に手っ取り早く回答することができ、集計も迅速にできるが、代表性という観点からすると疑問が多い。もちろんこれについては調査者も理解しており、そのため回答に対しては年代別・男女別といった区分の比率を、実際の選挙区での人口比率に合わせるよう重みをつけて補正を行っている [*5]

そして何より、既存の世論調査とインターネット世論調査をめぐる言説において私が強い疑問を持っているのは、従前の世論調査とインターネット世論調査の回答の「差」が強調されていることだ。特に、インターネットの側が自らの「正当性」「代表性」を主張しすぎている感があること、そしてそのようなインターネット側の態度が、ネット上や一部の論客に見られるような世論調査バッシングを助長させているような気がしてならない。たとえば小沢一郎氏が、自分の支持の高さを主張する際に、インターネット上では自分を支持する意見が多いということを強調したのは有名である [*6] 。インターネットの言説や調査は「マスコミが取り上げない多数派の意見」として主張の正当化に使われることが多いが、そのような見方もまた偏向していると言えないか。

マスコミの世論調査は正確に世論を反映しているのかと言われていると、必ずしもそうとは言えない。一方で、インターネットが正確に世論を反映しているのかというと、それも違うのではないかと思う。インターネット調査は、わが国においてはその手法や利用法が確立されているとは言いがたく、二者択一式の調査すら、調査方法によって結果がばらばらになっているというのが現状で [*7] 、利用法についてはコンセンサスがとれていないではないか。

もちろん、現状のマスコミによる世論調査にはたくさんの問題がある。しかしそれらの問題がどのようなところから来ているかを理解せず、いたずらな「マスゴミ」批判言説を展開してしまうのは不誠実でしかない。「マスコ(ゴ)ミの世論調査=老人の意見」「インターネットの世論調査=若者の意見」として、前者を貶め、後者を持ち上げるという態度は、かえってインターネット世論調査の可能性を狭めるものでしかない。

 

3. ボートマッチの可能性

さて、私はここまで、ゼゼヒヒやニコ割アンケートのようなインターネット上で行われている「調査」について懐疑的な視点を提示してきた。ただ、先の衆院選において、さまざまなメディアやウェブサービスが行った「ボートマッチ」については一目置いている。

ボートマッチとは、ユーザーがいくつかの設問に対して回答を行い、どの政党に考え方が近いかを結果として示し、投票の際の参考にするというものだ。毎日新聞 [*8] や日本版ボートマッチ開発ワーキンググループ [*9] などがあった。このように自分と政党との距離感を数値によって測ることができるのは良いサービスだと思う。

しかし課題も大きい。たとえば毎日新聞のボートマッチは、教育や福祉、医療、労働などに関する質問が少なく、これらを重視する私にとっては不満の残るものであった。そして、選挙に際しては、多くの人が、それぞれの関心分野で政党や候補者を見ることが少なくないので、「この項目が入っていないので参考にならない!」と感じる人もいるだろう。さらに、ボートマッチの結果が、自分の想定していた支持政党と著しく乖離する場合も多々ある。かといって多くのトピックを詰め込もうとすれば、ボートマッチそのものが冗長・複雑になってしまう。

その点から言えば、ボートマッチこそ行っていないものの、朝日新聞が行った、さまざまなトピックに対する候補者の幅を示すような調査 [*10] は、注目に値する。朝日新聞は2003年より、東京大学大学院法学政治学研究科の研究室(当初は蒲島郁夫研究室、後に谷口将紀研究室)と共同で政治に関する調査を、政治家・有権者の双方に行っている [*11] 。そしてそこで得られた候補者の回答をまとめ、それぞれのトピックに対する政党の意識の幅として提示しているのだ。有権者は自らの関心の高いトピックを選び、それに対する政党の意識の幅を見て、投票の際の参考にする。さらに朝日においては、選挙のあとも、政治家調査と世論調査データを用いて当選者と支持層の意識の差を分析しており、次の選挙——今回なら夏の参院選を見据えた利用法がなされている。

今後求められるボートマッチは、ボートマッチと政治家・政党への調査を結びつけ、候補者・当選者と回答者の意識の差が分かるようにするものだろう。

 

4. インターネット世論調査の可能性を広げるには

ここまでインターネット上で行われている、政治や社会問題に対するデータを使った取り組みについて私なりの論評を加えてきた。そして、私としては、現状は理想的なあり方にはまだ達していないという評価を下さざるを得ない。もちろん、インターネットの世論調査には多数の利点があるのも事実である。たとえば、集計がコンピュータシステム上で行われるので、データベース化が容易であること。さらに大量の回答を集めても集計の負荷は少ない。現状でインターネット世論調査の可能性を広げるなら、むしろこれを活用する方向を目指すべきである。

現状のインターネット世論調査システムに期待すべきなのは、代表性という問題点を抱えていることを前提にした、「世論調査」ではなくある種の社会意識の「観測」ツールとしての役割だろう。マーケティングリサーチャーの萩原雅之氏は、インターネット世論調査について、世論調査に期待されているものと実際に測定されているものの乖離を指摘し、最初から「観測」ツールとしての役割を強調することにより、既存の世論調査では見えない部分を測定することの意義を強調している [*12] 。代表性に対して疑問が挟まれているのであれば、インターネットにおける調査は、「世論調査」ではなく「観測」と割り切り、代表性が低いことを最初から明らかにしつつ、むしろ分析を深化させていくのが妥当な方向ではないか。

通常の面接や電話、質問紙による世論調査に比べて、インターネットの調査では質問内容を多くできるし、それを集計することも容易である。そのため、質問を絞り込むのではなく、むしろやや多めにすることにより、ある回答に対する他の回答の影響を分析することが可能だ。萩原氏の行った調査は、調査項目に主たる調査目的の設問(内閣や政党の支持)に加えて、《今日の感情・気分(センチメント・インデックス)》[*13] を入れることにより、既存の世論調査では見えないものの測定を可能にしている。

ニコ割アンケートでは、集計の迅速性がアピールポイントとして主張され、またその発表の際には、それがある種の「ネットを代表する意見」として既存の世論調査との「違い」が強調されることが多く、それはアンケートを主宰したものにとってもそのような傾向が見られる [*14] 。しかし、《ニコニコ動画の「ネット世論調査」は政治のさまざまな動きに対して、Yes・Noの単純な二者択一をユーザーに問うものではない。10万〜13万人にのぼるネットユーザーのリアルな意識や考えを探り、調査結果の先に存在する新しい何かを共有するために行われている調査である》[*15] と主張するのであれば、既存メディアの調査との「違い」を強調して終わりにするのではなく、ネット世論調査(世論観測)だからこそできる、大量のデータを用いた多面的な分析を行い、世論の形成モデルを提示することこそ求められるのではないか。

 

5. 統計学の活用

そして今日においては、コンピュータシステムと統計学の活用により、このような詳細な分析はさらに容易になっているというのが私の見解だ。現代の統計学においては、さまざまなデータを多面的に解析し、構造を明らかにする多変量解析が発達している。そしてコンピュータの進化により、大量のデータに対して複雑な分析をかけることも可能になった。まずは私が考える、世論調査において積極的に使われるべき統計学の代表的な手法をいくつか紹介していこう [*16]

a. 回帰分析
回帰分析は最も基礎的な多変量解析の手法であり、特定の量的なパラメータ(従属変数または被説明変数と呼ぶ)に対して、説明変数として使うパラメータがどのような影響を及ぼしているかを量的に見る手法である。さらに、ダミー変数 [*17] を使えば質的なパラメータを分析に用いることも可能である。なお、説明変数にダミー変数を使った回帰分析のことを数量化1類と呼ぶこともある。

b. ロジスティック回帰分析
先の回帰分析を発展させたもので、ロジットモデルと呼ばれるものを使うことにより、被説明変数がダミー変数で示されるパラメータに対する分析も可能になる。

c. 決定木分析
目的とするパラメータに対し、説明変数として使うパラメータの大小や選択によってどのように変化するかを予測する集計法の一種である。決定木という名前が示すとおり、分析結果は樹状になる。

d. 対応分析
複数のデータについて分析を行い、設問と回答者の傾向をそれぞれプロットする分析手法である。これにより、それぞれの設問への回答が、全体的にどのような傾向を持っているかを見ることができる。質的データをダミー変数に変換して行った対応分析は数量化3類と呼ばれる。

e. クラスター分析
データ間の「距離」を求めることにより、データをいくつかのクラスターに分ける手法である。クラスター分析には、あらかじめ分析するクラスターの数を決める「k-平均クラスター分析(k平均法)」と、クラスターの数を決めず、階層的なグラフを作る「階層的クラスター分析」の2つがある。

f. 形態素解析・テキストマイニング
特定の文章を単語(形態素)に分ける方法を形態素解析と言う。そしてそれで得られたデータに対して、様々な集計や多変量解析を行うことをテキストマイニングと呼ぶ。

これらの手法は、意見の形成要因や傾向をモデルとして提示するときに使われるものであり、社会学や心理学などでその使われ方が確立されているものである。このように統計学を活用することによって、観測データから世論の形を多面的に見ることが可能なのだ。しかし、統計学と聞くと、「難しい」「取っつきづらい」といった感想もあるかもしれない。また、多くの統計解析ツールは、軒並み企業や教育機関向けに提供されており、なおかつその価格も高価であることが多い。例えば代表的な統計解析ツールである、IBMの「IBM SPSS Statistics」は、官公庁・医療機関は18万9000円、教育機関でも9万9645円であり、一般向けについては見積もりの必要がある [*18] 。さらに高度な分析に対しては別途パッケージを購入する必要もある。Microsoft Excelのアドインである社会情報サービスの「エクセル統計」シリーズにしても、通常版では4万1580円と [*19] 、SPSSよりは格段に安いとはいえそれでも高価である。

その中にあって、オープンソースで開発され、無料で提供されている統計解析環境「R」(R言語)[*20] は極めて魅力的なツールだ。RはS言語をベースに1990年代より開発され、2000年にバージョン1.0が発表されている [*21] 。それ以降アップデートが続けられ、2004年10月にはバージョン2.0が登場、2013年2月5日現在はバージョン2.15.2まで開発が進められている。ただ、Rはオープンソースのソフトウェアであるため、サポート・保証は皆無である。しかし注20で示したRjpWikiをはじめとする開発者・利用者のコミュニティが世界各国のオンラインで充実しているほか、高い評価を誇る、舟尾暢男『The R Tips』(2004年に九天社より刊行されたが版元倒産により絶版。2009年に第2版がオーム社より刊行)などといった、多数の解説書が刊行されており、2000年代終わり頃からはその刊行点数が大幅に増加している。

また、Rは元々プログラミング言語であり、そのためインターフェイスの不親切さ、扱いづらさが批判されることもあった。しかし現在は、R Commander [*22] やR Studio、Rz [*23] 、R Excel [*24] などといった、Rの利用環境を向上させるツールも開発されるようになっている。もちろん、統計解析の手法によっては、これらのソフトを使わず、コンソール(入力画面)でそのまま行ったほうがいいものもある。

このような、Rという無料の統計解析環境の整備によって、市民が統計学の知見をもとに、大量のデータを高度な統計学的手法によって解析を行うことが飛躍的に容易になっている。もちろん統計学の知見を使うための数理的な知識もまた求められるが、少なくともツールとしての統計学は、市民にとって極めて身近な存在になっているのだ。

 

6. ゼゼヒヒをデータジャーナリズムにするためには?

統計学という観点を導入すると、ゼゼヒヒについても新たな可能性が見えてくる。私が考える、ゼゼヒヒの投稿をデータとして用い、世論の形成要因を「観測」するためのモデルを、以下に提示してみたい。

まず、ゼゼヒヒは設問に対して二者択一式の回答を最初に求め、希望があればそこにコメントを付加するシステムとなっている。そのため、まずはコメントに対して形態素解析を行い、回答AとBについて、どのような単語が見られるかを観察する。

形態素解析は、今までは日本語については困難と見なされてきた。しかし現在は、日本語形態素解析ツール「MeCab」[*25] が、京都大学とNTTの共同プロジェクトのもとオープンソースで開発されている。さらに、それをRで起動させる「RMeCab」[*26] も石田基広氏によって開発されており [*27] 、形態素解析やテキストマイニングも無料で行うことが可能だ。

また、高度な分析の例を挙げると、ちょうどゼゼヒヒの回答が二者択一式で提供されているので、コメント欄に現れる単語が回答に与える影響を、たとえばロジスティック回帰分析によって数的に表すことが可能だ。またクラスター分析や判別分析を使えば、「Bと回答しているがコメントとしてはA寄り」となるような意見を見ることができ、なぜそうなるのかを知ることが可能になるだろう。

もちろん、この回答データは「わざわざゼゼヒヒというサービスに登録して、設問に興味を持って回答を行い、しかもコメントまで残した」極めて特殊な層を対象にしているので、この問題に関心を持つ層という母集団を代表しているかと言われれば、そんなことは全然ないとしか答えようがない。しかし、ここには設問で提示されている問題に対してそれなりに関心の高い層が集まっているため、調査としてではなく、ある種の世論観測として分析を行い、世論や意識の形成モデルを提示することには、それなりには意味があるのではないかと思う(もちろん、本来であれば、専門の学者によって厳密に設計された調査が行われるのがいちばんいい)。

ただゼゼヒヒの書き込みをデータとして使う場合は、ここで示したような基礎的な分析を行う際には個人アカウントの性質を結果に結びつけることはないが、それでも著作権などに配慮し、得た書き込みはデータとしてのみ扱い、書き込んだアカウントを明らかにした上でのコメントの引用や転載は避けるべきであろう。なお、モデルとしてはもう一つ、特定のトピックに投稿している人が、他にどのようなトピックに投稿し、どのような回答をしているかということを分析することも可能だ。しかしこれを行うには、一つひとつ手作業で行うのは時間がかかるので、そのようなデータを集積するようなシステムを構築する必要があるが、その際には書き込みの使用に関するプライバシーポリシーを定めておく必要があるだろう。

このように、ゼゼヒヒが、意見の集約や多様性の提示に終わらず、社会に関する事象の観測・分析ツールとして使われ、それがメディアや市民の知見の向上につながる可能性が公式に提示されるのであれば、私も喜んでゼゼヒヒを使うだろうし、また必要とあれば分析する側としても参加してみたいと思う。

 

7. 市民統計家の重要性

インターネット上で行われるさまざまな調査の利点は、そのデータの使いやすさ、集めやすさにある。もちろん、通常の社会調査に比べれば、得られたデータが母集団を代表しているかという点において大きく劣る。何度も言うように、
それならば最初から「調査」という看板を掲げず、「観測」として社会に関するモデルの一例を提示する方向に動けばいいし、そうすべきだと思う。

しかし現状のインターネット上の調査の動きは、ニコ割アンケートのように「これがネットの意見だ!」という「差異の提示(ないし誇示)」に終始するか、あるいは現状のゼゼヒヒのように多様な意見の提示、という段階で終わっており、社会に資する分析がなかなか行われていないのが現状だ。これは我が国のメディアにおけるデータジャーナリズムの不足にも関係している。現状ではやはり、データに基づく議論よりも、たとえ根拠に基づいていなくとも自分の考え方を満たしてくれる言説を希求する向きが強い(そしてネット上の多くの「マスゴミ」批判は、そのような「癒やし」を求めるものに過ぎない)。データに基づく議論の重要性が認識されているのもまた事実だが、数学や統計学に対する敷居の高さが感じられていることもまたデータジャーナリズムの不足に影響しているのかもしれない。

しかし、本稿第5節で示したとおり、統計解析ツールは、R言語の発達により身近なものとなっている。そして統計学も、分析しつつ学ぶということが可能になっている。解説書を読んで基礎を固めつつ、R言語を用いて自分で分析を行い、知識と理解を深めていき、そして必要であれば提示するということは、技術的には決して困難なことではない。

そのようにしてデータに基づいた議論の重要性と、統計学の知識を兼ね備えた「市民統計家」とでも呼ぶべき人が増えれば、既存のメディアの調査も、またインターネット上の調査も、活用が進むのではないかと考えている。いささか希望的観測に過ぎるかもしれないが、「市民統計家」としての知識と意識を持った人の広がりこそが、今のメディアや言論の抱える問題の大部分を解決していくだろう。

 

■おまけ 〜ゼゼヒヒのコメントを分析してみた〜

さて、ゼゼヒヒやインターネット世論調査への批判や改善案の提示だけでは物足りない人も多いと思うので(というより私自身が物足りないと感じているので)、実際に分析例を提示してみたい。もちろん使用したのはR言語だ。分析に用いたのはNo.00174「日本の「報道の自由度」は高い? 低い?」[*28] に投稿されたコメントである。ここで、2013年2月7日12時にコメントの取得を行い、それに対して分析を行った。

その時点で得られたテキストは、「高い」176件、「低い」131件であった。なお、2013年2月11日0時時点で、この設問に対する(コメントのないものも含めた)回答数は、「高い」195件、「低い」165件であり、取得したコメントの分布はこのデータの分布と統計的な有意差はないと見なしてよい(p=0.4126,フィッシャーの正確確率検定による)。

ここで得られたコメントに対して、本文中で紹介した「RMeCab」を用いて形態素解析を行い、コメントの傾向について統計的な検討を行う。なお、コメントの内容を重視するため、形態素は名詞・動詞・形容詞のみ抽出し、形態素数の平均値以外の詳細な分析について用いる単語は3つ以上のコメントに現れているものに絞り、さらにそこから特に意味をなさないと思われる単語(「ある」「ない」「(し)てる」など)を除いた(これによって得られた単語は269単語)。

また、このたびの分析で得られた単語数や形態素は「RMeCab」の初期状態で行ったものであり、形態素解析ソフトによっては違う結果が出うることに留意されたい。解析データは1つのコメントにその単語が何回出てきたかを使うため、単語によっては1コメントに2以上の値を示すことがあるが、それはそのまま扱う。

□分析結果1:形態素数
まず、形態素数に対して分析を行った。まず、全体としての形態素数の平均は16.9577、標準偏差は8.8462であった。ただしその分布は正規分布と言うよりは一様分布に近くなっている(図1)。

http://www.neo-logue.com/mailmag/mailmagcontents/vol66/figure_01.jpg

また回答別に形態素数を比較すると、「高い」の側は平均17.6818・不偏分散73.4753、「低い」の側は平均15.9847・不偏分散84.2305であった。これについて母平均が等しいという帰無仮説の下でt検定を行うとp=0.0970と、帰無仮説を棄却するには極めて微妙な線となった。ざっと読んだ感じでは、どちらかに短いコメントが頻出しているとは思えなかったので、形態素数=コメントの長さと見なした場合、コメントの長さにはあまり差は見られないと言っていいかもしれない。

□分析結果2:単語の違い
次に、全体で20個以上出てきた単語について、回答間で使われた回数に差があるか比較を行う。該当する単語は(特に意味を持たないと思われる単語を除いて)全部で24個となった。その集計結果を表2に示す。さらに上位12単語については、それぞれの出現数の平均についてt検定を行った。
結果としては、上位5単語(「報道」「自由」「高い」「度」「思う」)については「高い」と答えた側の出現数が有意に高かったが、それ以外ではほとんど有意差が見られず、特に「低い」に至ってはまったく見られないと言っていい(表1)。

http://www.neo-logue.com/mailmag/mailmagcontents/vol66/table_01.jpg

実際にコメントをざっと読み比べてみると、「高い」と答えた側は「報道それ自体の自由度は高いが云々(記者クラブなどに抑圧されている、適切なものを報道していない、国民のレベルが低い、などなど)」と答える傾向が見られる。

□分析結果3:k平均クラスター分析
最後に、回答のテキストデータをk平均クラスター分析(k平均法)によって分類した結果を示す。いくつか検討した結果、3つのクラスターに分けるのが最も適切だと判断した。分析結果を平面上にプロットしたものを図2に示す。

http://www.neo-logue.com/mailmag/mailmagcontents/vol66/figure_02.jpg

クラスターの分布は表2aの通り。分布としては、第1,3クラスターでは「高い」が圧倒的に有意で、第2クラスターでは「低い」が有意であるもののその差は第1,3クラスターに比べて大きくはない。また1元配置分散分析で形態素数の比較を行うと、全てのクラスターで形態素数の母平均がすべて等しいという帰無仮説は棄却される(p<0.0001)。クラスターごとに形態素数の平均値をt検定によって比較すると、第1クラスター、第3クラスター、第2クラスターの順に平均値が大きく、差は全て有意である(第1クラスターと第2クラスターの比較がp<0.0001、第1と第3がp=0.0059、第2と第3がp=0.0152)。

次に分析結果とデータの読解から各クラスターの特徴を見ていく。まず第1クラスターの特徴として、「報道」という言葉を使っているかどうかが分け目となっており、我が国の報道についての(正否はどうあれ)具体的な考察が中心となっている。また全体としてコメントが長い。また第3クラスターは、「自由」「度」「高い」「思う」という単語が使われるとこちらのクラスターに向かう傾向が強くなる。内容としては我が国の報道の自由度の高さを認めつつ、問題点を指摘するという傾向がある。また「低い」側の評価を下したコメントにおいても、なぜ、あるいはどこで自由度が低いのかということを問題視している。

一方第2クラスターは、一部では第1,3クラスターで特徴的な単語を使わずに我が国の報道について論じているコメントも存在するものの、全体としてコメントそのものが短いか、あるいは単純な政治批判、「マスゴミ」批判的なコメントが目立った。

結果として第1,3クラスターは現状の報道の問題についてそれなりに意見を持っている層が、第2クラスターに比べて多いという結果となった。もちろん、それで第2クラスターのコメントの質が低いというわけではないものの、第2クラスターに最初の回答で「低い」とした層が多いが、単語数は変わらない。

□分析結果のまとめ
以上の簡易な分析から言えることは、「高い」と回答した層であっても、本当にわが国の報道の自由度の高さが行かせているかどうかについては疑問を持っている層が多く、わが国の報道の問題についてそれなりに発言したいというような傾向が見られた。他方「低い」と回答した層については、大まかな傾向として、わが国の政治や、あるいは戯画化された「マスゴミ」に対する不満をぶつけているという傾向が見られた。

もちろんこの分析は、ゼゼヒヒのコメント欄という極めて特殊な環境を分析したものであり厳密なモデルとは言えないのだが、それでもこの分析はある程度示唆的なものを含んでいると自負している。

□データ作成手順
ここで用いたデータの作成のために、第1行目に回答、第2行目にコメントを記したcsvファイルを作成し、それをRに読み込んで、自作のプログラムで全てのコメントをそれぞれ単一のテキストファイルに出力し、作業フォルダの中のフォルダ「zzhh174_textdata」に入れる。その後、次のように「RMeCab」を起動し、形態素解析結果を文字textdata_draftに出力した。

library(RMeCab)
textdata_draft <- docMatrix(“zzhh174_textdata”,pos=c(“動詞”,”名詞”,”形容詞”))
textdata_draft <- textdata_draft[ row.names(textdata_draft) != “[[LESS-THAN-1]]” , ]
textdata_draft <- textdata_draft[ row.names(textdata_draft) != “[[TOTAL-TOKENS]]” , ]
textdata_draft <- t(textdata_draft)

さらに、ここから単語の絞り込みを手作業で行い、主要269単語を抽出した。

 

▼後藤和智(ごとう・かずとも)
1984年、宮城県仙台市出身。東北大学工学部建築学科、同大学院工学研究科都市・建築学専攻博士課程前期修了。修士(工学)。2004年に若者論を検証するブログを開設。2007年より同人サークル「後藤和智事務所OffLine」での活動を開始。2012年よりKindleなどでの電子書籍の販売を開始。著書に『「ニート」って言うな!』(共著、光文社新書)、『おまえが若者を語るな!』(角川Oneテーマ21、2008年)などがある。

ウェブサイト「後藤和智事務所OnLine」:http://www45.atwiki.jp/kazugoto/
ツイッターID:@kazugoto

 

[*1] http://zzhh.jp/

[*2] http://www.nicovideo.jp/enquete/

[*3] http://www.asahi.com/special/08003/rdd.html

[*4] https://my-mai.mainichi.co.jp/mymai/modules/weblog_eye103/details.php?blog_id=1077

[*5] 調査及び解析方法等について

http://info.nicovideo.jp/enquete/special/entrance/201211/

[*6] 菅原琢「“ネット上の小沢人気”言説が示すネットと政治の今後」

http://synodos.livedoor.biz/archives/2012332.html

[*7] 前掲菅原論考

[*8] http://mainichi.jp/votematch/

[*9] http://votematch.jp/

[*10] http://www.asahi.com/senkyo/asahitodai/

[*11] http://www.masaki.j.u-tokyo.ac.jp/ats/atsindex.html

[*12] 萩原雅之「世論調査の弱点を補うネットによる世論「観測」の試み」『Journalism』2011年1月号、朝日新聞社、pp.28-35

[*13] 萩原前掲p.30

[*14] 七尾功「ニコニコ動画「ネット世論調査」の実態 ユーザーのリアルな意識や考えを探る」『Journalism』2011年1月号、朝日新聞社、pp.44-51

[*15] 七尾前掲p.51

[*16] なお、それぞれの手法に関する解説は、高橋信ほか『マンガでわかる統計学』シリーズ(オーム社)、服部環『心理・教育のためのRによるデータ解析』(福村出版)、緒賀郷志『Rによる心理・調査データ解析』(東京図書)、金明哲『Rによるデータサイエンス』(森北出版)、石田基広『Rによるテキストマイニング入門』(森北出版)、豊田秀樹『Rで学ぶ最新データ解析』シリーズ(東京図書)、及び筆者の同人誌『紅魔館の統計学なティータイム——市民のための統計学Special』(後藤和智事務所OffLine)を参照されたい

[*17] 特定の属性に該当するなら1、該当しないなら0を示す変数

[*18] http://www-06.ibm.com/software/jp/analytics/spss/products/statistics/

[*19] http://software.ssri.co.jp/ex/price.html

[*20] 日本でのRの総合的な解説については、岡田昌史氏の「RjpWiki」を参照されたい。

http://www.okada.jp.org/RWiki/index.php?RjpWiki

[*21] http://www.okada.jp.org/RWiki/?R%BB%CB

[*22] 2004年より開発されているRをベースにしたデータ解析ツール。RのサーバーであるCRANでパッケージとして提供されている

[*23] http://m884.jp/RzIntro_Ja.html

[*24] http://sunsite.univie.ac.at/rcom/

[*25] http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

[*26] http://rmecab.jp/wiki/index.php?RMeCab

[*27] なお、MeCabとRMeCabについては、注16の石田の著書を参照。

[*28] http://zzhh.jp/questions/174

最終更新: 2013年2月28日

ブロマガ

ドワンゴが運営するテキスト配信プラットフォーム。津田大介の「メディアの現場」をメルマガとブログ形式の両方で読めるほか、ブロマガ会員限定のニコニコ生放送「津田ブロマガ eXtreme」や生放送を文字起こしした特別号外も楽しめます。

ブロマガで「メディアの現場」を購読するにはこちらをクリックしてください。

  • 決済方法:クレジットカード、docomoausoftbankのケータイ払い
  • 特典:会員限定ニコニコ生放送、特別号外、会員限定動画

夜間飛行

「受信箱に、本が届く」をコンセプトに、テキストコンテンツならではの読み応えのある記事を厳選して配信。通常号のほか、夜間飛行の企画・制作による津田大介インタビュー記事「津田大介の『メディアの現場』特別号外」を月に一度お届けします。

夜間飛行で「メディアの現場」を購読するにはこちらをクリックしてください。

  • 決済方法:クレジットカード、WebMoneyPayPaldocomoauのケータイ払い
  • 特典:特別号外(月1回)

まぐまぐ

言わずと知れた老舗メルマガスタンド。ユーザー(会員)数、著者数ともに圧倒的な多さを誇るので、複数のメルマガを併読したい人に最適。メールの送信容量に制限があるため、津田大介の「メディアの現場」は数回に分割してお届けします。

まぐまぐで「メディアの現場」を購読するにはこちらをクリックしてください。

  • 決済方法:クレジットカード決済
  • バックナンバーを低価格で購入できる。

タグマ!

PC、スマートフォン、タブレット……と、マルチプラットフォーム対応のサービス。コンテンツを会員制ウェブサイトとして閲覧できるので、津田大介の「メディアの現場」を好きな時に、好きなデバイスで楽しみたいという人におすすめです。

タグマ!で「メディアの現場」を購読するにはこちらをクリックしてください。

  • 決済方法:クレジットカード、コンビニ決済、銀行振込み(pay-easy)、docomoauのケータイ払い
  • 特典:渡辺文重コラム(週1回)
メルマガスタンドとは?
メールマガジンを発行するサービスのこと(ここではプラットフォームも含みます)。メルマガスタンドごとに提供するサービスの特徴や支払方法、特典が異なるため、ご自身に最適なものを比較・検討のうえ、ご購読ください。