- Amazon.co.jp ・本 (352ページ)
- / ISBN・EAN: 9784794221872
作品紹介・あらすじ
Google がスキャンした大量の書籍(過去、数世紀ぶん!)から、各年に発行された本に使われている単語・フレーズの使用頻度をグラフに示す「グーグル・N グラム・ビューワー」。この技術の登場で、文献をビッグデータとして活用するまったく新しい人文科学が誕生した。「カルチャロミクス」と名づけられたこの新しい研究を紹介する。
感想・レビュー・書評
-
Googleが提供するツールを使って、スキャンした大量の書籍データを元に、各年に発行された書籍で使われている単語・フレーズの使用頻度をグラフに示すことができる。この書籍ビッグデータを利用した文献研究のことを本書のタイトルになっている「カルチャロミクス」と呼んでいる。すでにブログなどで使われる言語使用傾向は解析可能になっているし、今後使われるテキストの多くは電子化されるはずだ。文献のコピーは、常に著作権の問題をはらむが、語の出現頻度を見るだけであるということで、カルチャロミクスのプロジェクトはその問題を回避しているという。
言語の使用頻度を歴史的に統計分析することで、その言語の経時的な変遷を見ることができる。例えば、英語における不規則動詞は、時間が経つにつれて自然淘汰の規則に従うように使用頻度の少ないものは規則動詞に変わってきているという。その変遷の統計情報を見ることで、今後一定の期間においていくつの不規則動詞が規則動詞に変化し、その候補はどの語であるということを分析することができる。また、The United Statesが複数形なのか単数形なのかもどの時代で変わっていたのかも調べることができる。有名人の出現頻度を探ることでも、浮かび上がる事実がある。例えばこの本で紹介されているようにナチス時代に検閲にかけられた人物の出現頻度への影響を見ることも可能だ。
統計情報の検証という観点では、「文章を単語に分解し、出現頻度の多い順にランキングすると、第k番目の単語の出現頻度が1/kに比例する」というジップの法則が普遍的に成立することが実証的にもわかったことも成果のひとつかもしれない。
このカルチャロミクスを利用するためのNgram Viewerというツールは次のサイトで公開されている。
<https://books.google.com/ngrams>
このツールで少し遊んでみると自分でも次のようなことが簡単にわかった。
・MoslemからMuslimに1950年あたりを境に変わっている。その後、MuslimとIslamがずっと伸びてきている。
・World Trade Centerが2001年以降にさすがにぐっと伸びている。
・is、are、was、were、の比較で最近過去形が伸びている。昔を懐かしんでいるのかもしれない。
・大文字のInternetの頻度が落ちてきているが、普通名詞化された小文字のinternetが増えてきているというのもわかる。telephoneやmobileと併せて検索すると面白い。
・Japan, China, Koreaをサーチすると1990年代以降Japanの頻度低下が著しいのが分かる。もちろん第二次世界大戦のときにぐっと増えているのもわかる。
・HiroshimaとNagasakiの頻度を見ると、意外にNagasakiも同じ程度に多く言及されている(NagasakiがHiroshimaの7割くらい)
残念ながら2008年までしかデータがないので、3.11以降でFukushimaなどの出現頻度を見ることはできない。
本書では2012年にはNgram Viewerは本全体の6%をカバーするようになったとも書かれている。現存する本は一億三千万冊あり、その中ですでに三千万冊のデジタル化が完了しており、2020年までには残りのデジタル化が終了するだろうとも書かれている。ぜひとも最新のデータをアップデートしてほしいところである。
この本を読みながら、フーコーのアルシーヴ(書庫)のことを思い出していた。フーコーは図書館で過去の文書がささやく声を丹念に拾うことで、『言葉と物』『狂気の歴史』『監獄の誕生』などの著作を生み出した。電子データはより簡単に過去の声を分析させてくれるはずだ。出現頻度だけではなく、この技術がフーコーが行ったようなより素晴らしい研究成果に向けて活用されることを望みたい。詳細をみるコメント0件をすべて表示 -
やや冗長。
評価経済論者は「悪名は名声に勝る」の部分を読んだほうがいい。 -
グーグルの本を全部データ化するというプロジェクトを利用して、単語データベースを用いて、過去の文化を定量的に調べる話。
ウォークマン、真珠湾でも911でも広まった言葉はピークを迎えるまでは基本伸び続け、ピーク後は半減期があり、その半減期はだんだん短くなってきている。
ナチスドイツの時代などの文化統制はある機関からばったり帰省後がなくなるなど、明らかな痕跡が残る。ライフログなど今後はこれまでなかった社会科学的なものがより定量化され、それが分析の対象にはなろうが、プライバシーの問題はよりクローズアップされよう。 -
検閲への適用に、はっとさせられた。不規則動詞から規則動詞への移り変わりや、「ディケンズって特別な存在なんだなあ」ということがデータとしてわかるのが面白い。
Googleの活動がいろいろなところに影響していること、法は新たな技術には厄介な存在であること、一方の立場だけで考えてはいけない問題であり、なかなか難しいなあと思う。 -
グーグルNグラムビュ―ワーの公開前史。
グーグルブックスに取り込まれた文章の英単語の不規則活用が規則活用に変化する過程であったり、造語、名声、言論弾圧などを書籍の単語の頻出度から考察している。
ビックデータの取り扱いであったり、著作権、個人データとしての注意なども書かれているので、ビックデータを使って何を出来るのか、取り扱いの注意点は何なのかを知りたい人にも有用かと思う。
歴史の長い新聞社などは自社のデータをこのような形で公開して、医中誌みたいに接続料を取るというのはどうなのだろうかとも考えた。 -
不規則動詞が規則動詞にどのように変化してきたか、あるいは変化しな不規則動詞はなぜ変化しなかったのかとの話を皮切りに、著名人や発明品が有名になってから忘却されるまでの期間が新しい時代ほど短くなってきる事実、ヒトラーやスターリンそして中国などの言論弾圧の推移、そして集団的記憶と忘却など言葉で巡る歴史的推移を本のビッグデータであるGoogleブックスを用いて紐解き、ビッグデータの文化的活用の未来を考察してます。
ビッグデータを用いて文化の歴史を分析するという今までに無かった試みがとても興味深く読め、Googleブックスでの日本語データ(本)のデジタル化の推進にとても期待したくなりました。
また、言葉つながりで科学者の夫婦が自分の子供が生まれた時から言葉の学習過程を研究すべく発話を全て録音したしたエピソートがありました。子供が生まれると親御さんは写真やビデオをとても熱心に撮影します。
そのような記念的な意味で発話記録に加えて、子供のコミュニケーション能力を高めるためのアドバイスなどをIoTでできないかなと思ったりしました。ゆくゆくはこのデータを使って子供のコミュニケーション能力を向上させるロボットや人工知能に繋がる気がします。 -
ビッグデータのお話。事例が多い。楽しい。購入。図書館で借りてもよかったかな…
-
Google Booksに蓄積された500万冊の本から言葉の登場頻度を抽出し、文化を考察した本です。ビッグデータを扱った本は沢山ありますが、ビッグデータと文化の結びつきというのは興味深いです。
手段自体は、コーパス言語学と同じですが、どんなデータを使うか、権利関係はどうクリアするか、バイアス(「書籍」に「書かれた」言葉のみを扱うこと)をどう評価するかという手続き的なことが前半で書かれています。
そして後半における分析は、単に「“United States are”という表現がいつ“United States is”にとって代わられたのか」といった個別的な事象にとどまらず、人名、商品名、概念などのライフサイクルや、より一般にいかにして文化が生まれ、変容し、衰退するのかを計量的に分析する嚆矢といえます。
もちろん、ここで扱われる対象は人間の言語表現のごく一部であり、言語表現は人間の文化を構成するごく一部であることは言うまでもありません。他の多くのビッグデータを扱う論説でも興味の対象になっていますが、今後どれだけ人間の文化表現をビッグデータの分析ツールに取り込めるのか、取り込むことの意義や倫理的な問題は何かは長く議論の的となることでしょう。しかし望遠鏡が天文学に地動説を導入し、顕微鏡が生物学に細胞を導入したように、新しいツールが新しい研究対象を導入することは議論の余地がないことで、人文科学においても例外ではないことがこの本では示唆されていてます。そういう点では、この本自体が人文科学に新しい望遠鏡を紹介する意味合いがあり、それゆえに興味深い本であるといえます。