一橋大学 小町守教授 -データサイエンスが世の中を変えていく-

一橋大学 小町守教授に独自インタビュー

近年、データ分析ツールやクラウドの技術がめまぐるしく発展している中、様々な場面でデータサイエンスの分野が注目されていますが、「データサイエンス」と聞くと敷居が高く感じる人も多いでしょう。

そこで今回は、一橋大学のソーシャル・データサイエンス研究科で計算言語学・自然言語処理・人工知能を研究されている小町教授に、最先端の研究である「データサイエンス」の魅力や今後の展望についてお話を伺いました。

独自インタビューにご協力いただいた方
小町守教授

一橋大学 ソーシャル・データサイエンス研究科 教授

小町守(こまち まもる)

東京大学教養学部基礎科学科科学史・科学哲学分科を卒業後、奈良先端科学技術大学院大学情報科学研究科で博士(工学)を取得。

2010年より奈良先端科学技術大学院大学助教、2013年より首都大学東京(現東京都立大学)准教授・教授を経て、2023年より現職に就任。

国立国語研究所共同研究員、ケンブリッジ大学客員研究員などを兼任。

目次

最先端の研究「データサイエンス」の魅力とは

一般社団法人日本スポーツ広告協会編集部:それではまず最初に、データサイエンスの定義・魅力について教えていただきたいです。

小町教授:データサイエンスと聞くと、多くの人がデータを使って何かをするとイメージするでしょう。簡単に言うと、データサイエンスとは「データから有益な知見を導いて何らかの意思決定に使う」ことを意味します。

つまり、データサイエンスは「グローバルな問題が起きているから外交に人を回そう」「若い人がサービスを利用しているから次はポップな商品を売ろう」というように、データに基づいて意思決定を行うことを可能にします。トップの人の思いつきでサービスを変えるのはやめよう、というわけです。

このように、物事を実際のデータに基づいて捉える考え方を定量的なアプローチと言います。データを分析して次のアクションに繋げ、そのアクションを見て新しく効果を測定してまた次に繋げるといったサイクルに活用できる手法がデータサイエンスだと思っています。

一般社団法人日本スポーツ広告協会編集部:データサイエンスと聞くと敷居が高く感じますが、意思決定を行うツールであると考えると身近に感じますね。

ちなみに、専門家である小町教授にとって、データサイエンスを学ぶ魅力はどういったものでしょうか。

小町教授:データサイエンスはサイエンスと名前に付いてはいますが、基本的にはデータありきの実学的な分野だと思っています。

企業に勤めていると「データを使って何か分析してください」と言われることも多いと思いますが、実は「どのようにデータを集めるか」というところから、研究や開発は始まっています。

しかし、いざデータを集めるとなると、関係者に根回しをしてデータを用意していただいたり、実際に一部のデータを見て方針を決めたりするなどの下ごしらえが重要です。人によってはそういった部分を泥臭いと感じるかもしれませんが、その部分も含めて面白いと思える人もいるでしょう。私はデータを通じてデータの裏側に人間が見えるのが好きです。

また、現実のデータを相手にできるところも魅力的です。もし自分の仮説と違う結果が出た場合は、自分の仮説が間違っていたと軌道修正ができるので、思い込みを修正してもらえる点が面白いと思います。

一般社団法人日本スポーツ広告協会編集部:ありがとうございます。専門家の小町教授ならではの見解で大変勉強になります。

文系からデータサイエンスの道へ

一般社団法人日本スポーツ広告協会編集部:小町教授は学生時代文系でいらっしゃったとお伺いしています。理転されたきっかけを教えていただけますか。

小町教授:そうですね。まず文系に進んだ理由から順を追ってお話しします。

中学1年生の頃の夏休みに、NHKラジオの「基礎英語」の講座を受ける宿題があり語学に興味が湧きました。当時は個別の言語を勉強することが楽しかったのですが、中国語・ハングル講座など様々な講座を受けたことでアジアの言語や東洋思想に興味を持ちました。

高校生の頃は「言葉でお互いを理解することには限界があるので、言葉を超えたところに真理があるのではないか」と考え、東洋哲学の研究を深めるために中国に留学しようとした時期もあるくらいです。

その後、大学受験の頃は次第に「言葉にももっと多くの可能性があるのではないか」と考えるようになり、そのためには西洋の哲学を勉強する必要があると思い、欧米系の哲学を学ぶため文系の学科に進学しました。

しかし、大学1年生の頃に情報処理の授業でプログラミングを習ったことをきっかけに、コンピュータの楽しさにのめり込みました。そこで情報系の勉強に興味を持ったことから、理学部情報科学科に進学できないか問い合わせたところ、文系で進学した人は数学や実験の単位が足りないから不可能だと言われました。

文系からでも入れる情報系の学科もあったのですが、進学振り分けで点数が足りず落ちてしまったため、最終的に科学史・科学哲学に進み、主に科学の歴史や在り方について考えることを専門にしました。学科としては理系に所属していましたし、科学史・科学哲学に入った同級生5人のうち私以外は全員理系だったので、文理融合な環境の中で留学や研究を行いました。

卒業する際はどんな道に進むか悩みつつも言語系の大学院に進もうと決断したのですが、入試の出願締め切りを間違えて留年してしまい1年間卒業が伸びてしまいました。

一般社団法人日本スポーツ広告協会編集部:そうだったのですね!

小町教授:その空いた1年間で何をしようか考えていたところ、先輩から「国立国語研究所」でプログラミングのアルバイトをしないかと声をかけていただきました。話し言葉のデータベースを構築する業務内容だったのですが、現在の研究テーマである自然言語処理という分野を知るきっかけとなりました。

そもそも、理転する前はオーストラリアやインドネシア、台湾などまだ誰も文法や辞書を作っていないような国や地域に赴き、世界で初めての辞書を作るようなことをしたいと考えていたので、フィールド言語学という分野に興味がありました。

一方で、自然言語処理で扱う対象言語の多くは日本語や英語のような主要言語ではありますが、自分が関心を持っている言語もコンピュータもどちらにも触れることができ、コンピュータを使って自動的に辞書を作ったり、文法を構築したりするような研究ができると考え、のちに大学院に進む際も自然言語処理の分野を選びました。

大学院に入ってからは博士課程まで進学し、たまたま所属していた研究室に助教のポストが空くと連絡があったため、助教になりました。Apple社のインターンシップをアメリカでしていたため、開発の仕事も副業として続けながら二足草鞋でしばらく働いていました。その後、大学教員の仕事が面白くなってきたタイミングで大学1本に絞った運びです。

助教になり、その後准教授として独立してからは工学的なアプローチでの有用性を求める研究は長い間行ってきたので、もう少し基礎的な理論も研究していきたいと考えていました。そんな時に文理両方の文化を大切にする新しい学部を作ると言う話があり、そこでなら新しい研究もできると考え現職に至ります。

一般社団法人日本スポーツ広告協会編集部:なるほど。時とともに関心が変わりつつも、最終的には当初から興味を持たれていた言語にも関係する研究分野に進まれたのですね。

ちなみに、小町教授の専門とされる計算言語学・自然言語処理についても簡単にご説明いただいてもよろしいでしょうか。

小町教授:計算言語学と自然言語処理は専門家の中では同様の意味で使われることも多いです。例えば、日本の自然言語処理の学会は「言語処理学会」という名前ですし、国際的な自然言語処理の学会は「計算言語学会」という名前になっています。

したがって、意味合いは8割〜9割同じであり、言語的なサイエンスとしての側面を重視すると計算言語学という名前に、工学的な側面を重視しエンジニアリングを強調すると自然言語処理という名前になると思っています。

ただ、このようにオーバーラップした部分が多いのは事実ですが、完全にエンジニアリングだけの研究だと計算言語学から外れているかもしれませんし、逆に文法の完全性の証明などといった理論だけの研究だと自然言語処理からは外れているかもしれません。

意味合いはほとんど同じとして、コンピュータを使って言語を扱い有意義な知見を得ることが計算言語学と自然言語処理が対象としているものです。脳内のものではなく目の前にある言語のデータを対象にする点が特徴で、データサイエンスの文脈で言えばテキストデータを用いたサイエンスということになります。

身近な例を出すと、日常的に皆さんが使われるウェブ検索や日本語入力、最近だとChatGPTなどの、言語を入力または出力とするアプリケーションを対象としています。

一般社団法人日本スポーツ広告協会編集部:身近な例を挙げていただくと非常に分かりやすいですね!普段から活用している便利なアプリケーションの裏側には計算言語学と自然言語処理があるということですね。

小町教授:そうですね。また、先ほどのお話と重複する部分がありますが、大学院に入ってからは言語学習を支援するための自然言語処理というテーマに取り組んでいました。

例えば、日本人が英語を書く時に文法を間違ってしまった場合、その間違った文法を正しく直したり、作文の点数を自動で付けて採点をしたり、用例を検索するシステムを作ったりとか、色々な支援の研究を行いました。

その他だと、機械翻訳の研究をしていました。最近は深層学習が登場して人間が書いたものとほとんど変わらないくらい流暢な文章を自動で生成することができますが、これまでは一見して機械による翻訳だと分かるようなテキストに溢れていました。

そこで、人間がどのような文章を良い文章・悪い文章だと判断しているのかという評価の研究を、かれこれ5年くらい行っています。どちらかと言えば計算言語的な研究ですが、人間の認知的な面にも関わっているので広い分野の知識が必要だと思っています。

一般社団法人日本スポーツ広告協会編集部:認知的な面というと、例えばどのようなことがありますか。

小町教授:例えば翻訳で考えてみましょう。英語から日本語に翻訳する場合、日本語として流暢な表現であると多少間違っていても日本人は気付かないでしょう。専門家でない一般の人は、一見して流暢なら正しいと思ってしまうバイアス(認知の歪み)があります。

また、最近だとChatGPTなども普及していますが、生成されたテキストが流暢だと、たとえ事実と嘘が入り混じっていたとしても信じ込んでしまうでしょう。

一般社団法人日本スポーツ広告協会編集部:確かに。ChatGPTが生成したテキストなら信じ込んでしまいそうです。

小町教授:そうですよね。そういったバイアスがなぜ生まれるのか、あるいはどういう所にどのくらいバイアスがあるのかということに最近は特に興味を持っています。

また、従来の翻訳だとぎこちない部分に気付き修正を加えて翻訳を作り上げることも可能でした。しかし、現在のニューラルネットワークを使った翻訳だと、一見流暢なのでどこに間違いがあるのかに人間が気付くのは非常に難しく、いっそのこと一から翻訳をした方が楽なぐらいだとも言われています。

人間が何を「良い」とし何を「悪い」と思うか、どうやったら間違いを見つけられるかという点についてはこれからも研究が必要だと思っています。

ソーシャル・データサイエンスで社会課題の解決を目指す

一般社団法人日本スポーツ広告協会編集部:小町教授が在籍される一橋大学のソーシャル・データサイエンス学部・研究科についてもお聞かせ願えますか。

小町教授:一橋大学には文学部がない代わりに、法学部、経済学部、商学部、社会学部、ソーシャル・データサイエンス学部の5学部からなる社会科学系総合大学として、特にソーシャルサイエンスについては日本でも有数の歴史を持っています。

データサイエンスは色々な大学でも研究されていますが、本学の強みであるソーシャルサイエンスと、新しく登場したデータサイエンスを融合した学部を作ることで、より高度な研究を可能にしました。

データサイエンスとは調理器具のようなものです。例えば、データサイエンスが包丁だとしたら、調理する食材が社会科学です。そして、社会科学の中にも法学・経済学・商学・社会学があります。これらはそれぞれ対象としているデータが異なってはいますが、データを扱っている点では共通しています。これまでの蓄積をもとに新しいテーマに取り組んでいくことがソーシャル・データサイエンス学部で挑戦していることです。

また、ソーシャル・データサイエンス学部には法学や経営学など別の分野を専門とされている先生方も所属している一方で、私のように人工知能を専門としている専任の先生もいらっしゃいます。したがって、入ってくる学生の方々からすると、色々な知見・教養・知識を学び専門性も見つけることができる点が非常に魅力的だと思います。

一般社団法人日本スポーツ広告協会編集部:なるほど。専任教員の方から高度な理工系の内容を学べる一方で、他学部の先生方から社会科学科目も学べるのですね!

お話を聞く中で、ソーシャル・データサイエンス学部は「ここにしかない」魅力を沢山持つ学部であることが分かりましたが、ソーシャル・データサイエンス学部としての今後の展望なども教えていただけますか。

小町教授:丁度今年の4月に学部と修士の一期生が入ってきた所です。あと3年かけて学部に全学年が揃い、修士の人は今の1年生が2年生になり新しい1年性が入ることで全学年揃うことになります。修士の学生が2年生になった後に進学できるように、再来年には博士課程の設置を構想中です。

データサイエンスという比較的新しい学問の中でもソーシャル・データサイエンスは新しい学問です。入ってこられる学生の方は、社会科学科目とデータサイエンス科目の両方を身につけることができます。博士課程を含めて全学年が揃うまでは4〜5年かかることにはなりますが、社会で活躍できる人材を続々と育てることができるのはとても楽しみであり、期待している所です。

また、当学部の卒業生が活躍する場は様々です。例えば、企業であれば今まで確たる根拠なく決めていた事柄をデータに基づいてアクションに移すよう提案するだとか、国や地方自治体などの公的なセクターでもデータを活用することができますし、勿論大学に残って研究を続けることも可能です。

スポーツに関しても、天気の良し悪しのデータが観客の動員に関係していて、予測に合わせてどれくらいの人員を手配すべきかもデータに基づいて考える必要があります。また、最近では選手の採用や育成計画にデータを活用している場面もあります。

そういう意味では、産官学全ての課題に対してデータに基づいて意思決定ができる世の中にしていくために、優秀な人材を育てたいと思っています。

2023年12月17日 記事公開

目次