カルチャロミクス;文化をビッグデータで計測する

  • 草思社
3.70
  • (8)
  • (19)
  • (16)
  • (3)
  • (0)
本棚登録 : 270
感想 : 21
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (352ページ)
  • / ISBN・EAN: 9784794221872

作品紹介・あらすじ

Google がスキャンした大量の書籍(過去、数世紀ぶん!)から、各年に発行された本に使われている単語・フレーズの使用頻度をグラフに示す「グーグル・N グラム・ビューワー」。この技術の登場で、文献をビッグデータとして活用するまったく新しい人文科学が誕生した。「カルチャロミクス」と名づけられたこの新しい研究を紹介する。

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • Googleが提供するツールを使って、スキャンした大量の書籍データを元に、各年に発行された書籍で使われている単語・フレーズの使用頻度をグラフに示すことができる。この書籍ビッグデータを利用した文献研究のことを本書のタイトルになっている「カルチャロミクス」と呼んでいる。すでにブログなどで使われる言語使用傾向は解析可能になっているし、今後使われるテキストの多くは電子化されるはずだ。文献のコピーは、常に著作権の問題をはらむが、語の出現頻度を見るだけであるということで、カルチャロミクスのプロジェクトはその問題を回避しているという。

    言語の使用頻度を歴史的に統計分析することで、その言語の経時的な変遷を見ることができる。例えば、英語における不規則動詞は、時間が経つにつれて自然淘汰の規則に従うように使用頻度の少ないものは規則動詞に変わってきているという。その変遷の統計情報を見ることで、今後一定の期間においていくつの不規則動詞が規則動詞に変化し、その候補はどの語であるということを分析することができる。また、The United Statesが複数形なのか単数形なのかもどの時代で変わっていたのかも調べることができる。有名人の出現頻度を探ることでも、浮かび上がる事実がある。例えばこの本で紹介されているようにナチス時代に検閲にかけられた人物の出現頻度への影響を見ることも可能だ。

    統計情報の検証という観点では、「文章を単語に分解し、出現頻度の多い順にランキングすると、第k番目の単語の出現頻度が1/kに比例する」というジップの法則が普遍的に成立することが実証的にもわかったことも成果のひとつかもしれない。

    このカルチャロミクスを利用するためのNgram Viewerというツールは次のサイトで公開されている。
    <https://books.google.com/ngrams>
    このツールで少し遊んでみると自分でも次のようなことが簡単にわかった。

    ・MoslemからMuslimに1950年あたりを境に変わっている。その後、MuslimとIslamがずっと伸びてきている。
    ・World Trade Centerが2001年以降にさすがにぐっと伸びている。
    ・is、are、was、were、の比較で最近過去形が伸びている。昔を懐かしんでいるのかもしれない。
    ・大文字のInternetの頻度が落ちてきているが、普通名詞化された小文字のinternetが増えてきているというのもわかる。telephoneやmobileと併せて検索すると面白い。
    ・Japan, China, Koreaをサーチすると1990年代以降Japanの頻度低下が著しいのが分かる。もちろん第二次世界大戦のときにぐっと増えているのもわかる。
    ・HiroshimaとNagasakiの頻度を見ると、意外にNagasakiも同じ程度に多く言及されている(NagasakiがHiroshimaの7割くらい)

    残念ながら2008年までしかデータがないので、3.11以降でFukushimaなどの出現頻度を見ることはできない。
    本書では2012年にはNgram Viewerは本全体の6%をカバーするようになったとも書かれている。現存する本は一億三千万冊あり、その中ですでに三千万冊のデジタル化が完了しており、2020年までには残りのデジタル化が終了するだろうとも書かれている。ぜひとも最新のデータをアップデートしてほしいところである。

    この本を読みながら、フーコーのアルシーヴ(書庫)のことを思い出していた。フーコーは図書館で過去の文書がささやく声を丹念に拾うことで、『言葉と物』『狂気の歴史』『監獄の誕生』などの著作を生み出した。電子データはより簡単に過去の声を分析させてくれるはずだ。出現頻度だけではなく、この技術がフーコーが行ったようなより素晴らしい研究成果に向けて活用されることを望みたい。

  • やや冗長。
    評価経済論者は「悪名は名声に勝る」の部分を読んだほうがいい。

  • グーグルの本を全部データ化するというプロジェクトを利用して、単語データベースを用いて、過去の文化を定量的に調べる話。
    ウォークマン、真珠湾でも911でも広まった言葉はピークを迎えるまでは基本伸び続け、ピーク後は半減期があり、その半減期はだんだん短くなってきている。
    ナチスドイツの時代などの文化統制はある機関からばったり帰省後がなくなるなど、明らかな痕跡が残る。ライフログなど今後はこれまでなかった社会科学的なものがより定量化され、それが分析の対象にはなろうが、プライバシーの問題はよりクローズアップされよう。

  • 検閲への適用に、はっとさせられた。不規則動詞から規則動詞への移り変わりや、「ディケンズって特別な存在なんだなあ」ということがデータとしてわかるのが面白い。

    Googleの活動がいろいろなところに影響していること、法は新たな技術には厄介な存在であること、一方の立場だけで考えてはいけない問題であり、なかなか難しいなあと思う。

  • カルチャロミクス、という造語だけだと???という感じになりますが、人文科学の世界がビッグデータという新しい武器を手に入れたら、こんなコトができます!という解説と展望が書かれた本です。これでもちょっとわかりにくいなぁ。。

    具体的な内容を挙げると、著者がGoogleの協力を得て作った「昔からの本の内容が全てデータで取り込まれた、単語の使用頻度が年別にわかるシステム」を使って、新たな発見をしていくというもの。たとえば…
    ・英語のあのわかりづらい不規則動詞、実は徐々に減っている…?
    ・ナチスの言論弾圧が本に与えた影響は?

    様々なテーマが語られた上で、最終章は「ビッグデータがもたらす未来」として、上記のシステムの話を少し離れて、ライフログの扱いや、未来予測が可能なのかといったことにも触れられています。


    個人的な印象は、まだ著者も新しい武器を手に入れた!という興奮のさなかで、その紹介にとどまったような感はあります。新しい分野が融合して素晴らしい化学反応が起きつつあるというのは理解できるのですが。
    最終章はSF的な話でもあって面白かったです。ライフログが国家に管理されるディストピアになるという懸念も示されていましたが、これだけデータが巨大化していくと、データの保有・管理をバラバラの民間企業に任せておいて良いのか?という話もそのうち提起されそう。でも、未来の我々はより賢くなっていると信じたいところです。
    この本をきっかけに、色々な発想が生まれそうな、可能性を感じる本でした。

    ちなみに、本文はジョーク交じりで専門用語もできるだけ排したわかりやすいものでしたが、解説の方がむしろ難しいという罠がありました。。

  • 過去の文献をデジタル化しビッグデータ化したうえで、(1)様々なキーワードが利用された回数等を年代や場所ごとに集計し、(2)そこから人間の文化や歴史の変遷を読み解こうという意欲作。(1)は面白いが、まだ(2)の段階が浅く、「へー、そうなんだ」「だから何なの?」というレベルで終わっているように思われる。今後(2)のレベルでの議論や検証が成熟化していけばもっともっと面白いものになりそう。いまはその「ダイアモンドの原石」状態。

  • グーグルNグラムビュ―ワーの公開前史。

    グーグルブックスに取り込まれた文章の英単語の不規則活用が規則活用に変化する過程であったり、造語、名声、言論弾圧などを書籍の単語の頻出度から考察している。

    ビックデータの取り扱いであったり、著作権、個人データとしての注意なども書かれているので、ビックデータを使って何を出来るのか、取り扱いの注意点は何なのかを知りたい人にも有用かと思う。

    歴史の長い新聞社などは自社のデータをこのような形で公開して、医中誌みたいに接続料を取るというのはどうなのだろうかとも考えた。

  • 不規則動詞が規則動詞にどのように変化してきたか、あるいは変化しな不規則動詞はなぜ変化しなかったのかとの話を皮切りに、著名人や発明品が有名になってから忘却されるまでの期間が新しい時代ほど短くなってきる事実、ヒトラーやスターリンそして中国などの言論弾圧の推移、そして集団的記憶と忘却など言葉で巡る歴史的推移を本のビッグデータであるGoogleブックスを用いて紐解き、ビッグデータの文化的活用の未来を考察してます。

    ビッグデータを用いて文化の歴史を分析するという今までに無かった試みがとても興味深く読め、Googleブックスでの日本語データ(本)のデジタル化の推進にとても期待したくなりました。

    また、言葉つながりで科学者の夫婦が自分の子供が生まれた時から言葉の学習過程を研究すべく発話を全て録音したしたエピソートがありました。子供が生まれると親御さんは写真やビデオをとても熱心に撮影します。

    そのような記念的な意味で発話記録に加えて、子供のコミュニケーション能力を高めるためのアドバイスなどをIoTでできないかなと思ったりしました。ゆくゆくはこのデータを使って子供のコミュニケーション能力を向上させるロボットや人工知能に繋がる気がします。

  • ビッグデータのお話。事例が多い。楽しい。購入。図書館で借りてもよかったかな…

  • Google Booksに蓄積された500万冊の本から言葉の登場頻度を抽出し、文化を考察した本です。ビッグデータを扱った本は沢山ありますが、ビッグデータと文化の結びつきというのは興味深いです。

    手段自体は、コーパス言語学と同じですが、どんなデータを使うか、権利関係はどうクリアするか、バイアス(「書籍」に「書かれた」言葉のみを扱うこと)をどう評価するかという手続き的なことが前半で書かれています。

    そして後半における分析は、単に「“United States are”という表現がいつ“United States is”にとって代わられたのか」といった個別的な事象にとどまらず、人名、商品名、概念などのライフサイクルや、より一般にいかにして文化が生まれ、変容し、衰退するのかを計量的に分析する嚆矢といえます。

    もちろん、ここで扱われる対象は人間の言語表現のごく一部であり、言語表現は人間の文化を構成するごく一部であることは言うまでもありません。他の多くのビッグデータを扱う論説でも興味の対象になっていますが、今後どれだけ人間の文化表現をビッグデータの分析ツールに取り込めるのか、取り込むことの意義や倫理的な問題は何かは長く議論の的となることでしょう。しかし望遠鏡が天文学に地動説を導入し、顕微鏡が生物学に細胞を導入したように、新しいツールが新しい研究対象を導入することは議論の余地がないことで、人文科学においても例外ではないことがこの本では示唆されていてます。そういう点では、この本自体が人文科学に新しい望遠鏡を紹介する意味合いがあり、それゆえに興味深い本であるといえます。

全21件中 1 - 10件を表示

著者プロフィール

エレツ・エイデン(Erez Aiden)
2010年にハーバード大学とマサチューセッツ工科大学(MIT)で博士号取得。数年間、ハーバード大のソサエティ・オブ・フェローズ、Google社の客員研究者をつとめた後、ベイラー医科大学とライス大学の助教に就任し、そこでゲノム・アーキテクチャー・センターを率いた。2009年にはMITテクノロジー・レビュー誌が選ぶTR35(最もイノベーティブな35歳以下の35人)のひとりに選ばれた。2012年には、合衆国政府が若手研究者に与える最高の栄誉であるPECASE賞を、ホワイトハウスより受けた。この賞は、共同研究者と共にゲノムの三次元構造を調べる技術を開発したことに対して与えられたもの。ヒューストン在住。

「2019年 『文庫 カルチャロミクス』 で使われていた紹介文から引用しています。」

エレツ・エイデンの作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×