活動報告


     

「感覚系視床における報酬予測に対する後ろ向きおよび前向き符号化」
小野 武年 (富山医科薬科大学・医学部・第二生理学教室)

1.研究の背景
外界の様々な感覚刺激は耳、目、皮膚などの末梢感覚器官から不断に入ってくるが、われわれはこれらの物理情報を一様に知覚、認知しているわけではない。意識的にも、無意識的にも、生物学的に意味のある情報を選択し行動している。そのような物理情報から意味情報への変換は脳内のどこでどのように行われているのだろうか。筆者らはすでにサルやラットを用いた実験で、大脳辺縁系の扁桃体には、感覚刺激の生物学的価値判断や意味認知に基づき、快、不快情動を担うニューロンの存在を明らかにしてきた。しかし、このような物理情報から意味情報への変換の起源を探る研究は過去にほとんどなく、脳固有の動作原理解明の突破口となるであろう。本研究では、外界の物理情報は、感覚種(modality)を問わず、一旦視床を経由するという普遍性、視床から扁桃体への直接経路の存在、さらに新皮質から視床へフィードバック投射に着目して、感覚系視床領域に狙いを定めた 。

2.研究の概要
 物理情報としては、聴覚刺激と視覚刺激という2種類の感覚刺激を、意味情報としては、報酬の有無という2種類の情報を組み合わせて、4種類の課題をラットに識別するように訓練した。ラットは、純音や白色光といった感覚刺激を2秒間呈示され、1秒間待ったあと、口直前にでてくるチューブを舐めると報酬が得られるといった課題を遂行する。報酬には、自然報酬としてショ糖溶液を、人工報酬として脳内自己刺激を使った。このような感覚刺激と報酬の連合課題をラットが行っているときに、聴覚や視覚情報を中継する視床領域からニューロン活動(インパルス放電)を細胞外記録した。
 視床ニューロンの応答は、大きく2つのタイプに分類できた(図1)。
 第一のタイプは、従来からいわれてきた物理情報をコードするニューロンで、音、または光のどちらか一方の感覚刺激の呈示時間にだけmodality特異的に応答し、報酬との連合の有無の影響をうけなかった。
 第二のタイプは、報酬という意味情報をコードするニューロンで、感覚刺激の呈示後、短潜時に出現する一過性の初期応答とそれに続いて応答強度が徐々に増大して報酬の得られる直前でピークに達する後期応答の2相性を呈した。初期応答は、視覚、または聴覚特異的で、過去の学習経験により応答強度が変化した。後期応答は、modalityを問わず、報酬が得られるという状況のときだけ現れた。すなわち、この初期応答から後期応答への移行は、modality特異的な感覚入力を、報酬という意味において統一していく過程(transmodal process)を反映している。


図1

 【機能的局在】
 一般に、視覚、または聴覚などの特殊感覚や触覚、圧覚などの体性感覚の感覚伝導路は、主経路と副経路からなり、末梢感覚器官から並列に上位中枢へ連絡している。主経路は第一次感覚野へ、副経路は第二次感覚野へ投射している。視床でも主経路と副経路に分かれていて、副経路領域からは扁桃体、線条体、嗅周囲皮質などの報酬の情報処理に関わる脳領域へ直接投射している(図2)。興味深いことに前述の2相性応答を示す第二のタイプのニューロンは、視床の副経路に相当する領域に局在していた。


図2

 【報酬予測に対する前向きまたは後ろ向きの情報処理】
 視床副経路の2相性応答は、それぞれどんな情報を担っているかを調べるために、報酬のパラメーターを操作した。
 まず、感覚刺激と報酬の連合を解消(消去学習)したり、再連合(再学習)したときに、どのように初期および後期応答が、経時的に変化したかを解析した。初期応答は、消去学習中に徐々に減弱していくが、完全に消えることはなく、過去に報酬と連合されていない感覚刺激に対する応答に比べ、高いレベルに落ち着いた。また、再学習により、速やかに消去学習前の応答レベルに回復した。初期応答は、消去学習と再学習の過程において、非対称的な可塑的変化を示すことから、現在の感覚情報だけでなく、過去の学習経験を反映したかのような後ろ向きの情報処理(retrospective processing)を担っていると考えられる。一方、後期応答は、報酬獲得行動に応じて、速やかに変化し、報酬のない状態が続くと完全に消失した。
 次に、報酬を水にしたり、ショ糖にしたり、ショ糖を倍量にして、報酬の価値を高くすると、後期応答だけピークが高くなった。また、報酬がもらえるタイミングを感覚刺激呈示終了1秒後にあたえる状況から、終了直後にあたえる状況や2秒後にあたえる状況に変えると、後期応答だけピークの時点がそれに応じて、報酬直前まで移行した。初期応答は、このような報酬の価値やタイミングを操作しても変化しなかった。これらのことから、後期応答は、来るべき報酬がいつ、どのくらい得られるのかという前向きの情報処理(prospective processing)を担っていると考えられる。

 【情報の流れ】
 本研究で初めて明らかになった視床ニューロンの2相性応答は、どのようなメカニズムで発生するのだろうか。初期応答は、modality特異的で、短潜時であることから、末梢感覚器官からの直接入力(bottom-up)によることが考えられる。一方、後期応答は、報酬獲得時にむかって徐々に強度が増大してくる同じタイプのニューロンが、線条体や扁桃体や前頭皮質でもみられ、解剖学的知見もあわせると、嗅周囲皮質からの入力の影響(top-down)が強いと考えられる。

3.当研究の意義
 従来、系統発生学的に古い視床は、単に現在の感覚情報を大脳皮質へ中継する機能しかもたないとみなされてきた。しかし、本研究は、視床レベルのニューロン応答が、現在の情報だけでなく、動物の生存に不可欠な過去の経験に基づく未来への予測の情報を反映していると明らかにした点で、特記すべきであると思われる。さらにラットの古典的恐怖条件付けでも、視床内副経路に相当する領域で、短潜時のニューロン応答強度が、過去の経験に応じて変化するという報告もある。これらのことから、視床は、報酬性であれ、嫌悪性であれ、生物学的に重要な感覚情報を選別して、大脳領域に伝達するフィルターの役割を果たしているのかもしれない。
 また、本研究のような報酬を利用した生物の目的志向型行動の脳内機構を強化学習理論の枠組みのなかで捉えなおしても興味深い。強化学習理論は、不安定な環境のなかでも、試行錯誤しながら適応していく生物の自律学習モデルとして、アクター・クリティックアーキテクチャー(Actor-critic architechture)を軸に提唱された(Bartoら)。本研究で明らかになった後期応答は、強化学習理論において、行為者(Agent)内部の報酬期待に関わる情報を定量化した評価関数(Value function)とみなすと、報酬価や報酬タイミングを変化させたときのニューロン活動の振る舞いがうまく説明できる。一方、初期応答はmodality特異的であることから、環境からの感覚入力(Sensory state)と考えられる。昨今、黒質線条体系を中心とするドーパミン細胞が、実際に得られた報酬と予測された報酬の差分、TD誤差(Temporal difference error)を具現し、強化学習の進行を左右するのではないかと注目されている。しかし、TD誤差は、評価関数や感覚入力の上に成立する。本研究は、今まで不明だった評価関数や感覚入力の生物学的根拠をあたえる可能性がある。

4.おわりに
 脳は、系統発生学的に、古い方から脳幹、大脳辺縁系、大脳新皮質へと、下位から上位へ積み上げられた階層構造になっている。日本の脳研究のパイオニアである時実先生が予見されていたように、"生きている"「生存」のための脳幹、"たくましく生きていく"「感情」のための大脳辺縁系、"うまく生きていく"という思考や創造など「理性」のための大脳新皮質は、ダイナミックに相互作用し、統合的に機能する。将来の予測、意思決定、目標実践をはじめとする高次脳機能を探る研究は、「新しい脳」である大脳新皮質に求められがちだが,いくら高次の理性も生存や感情があって、はじめて機能する。本研究は視床に潜む記憶、予測の原初を浮き彫りにしたが、「古い脳」に関する今後の研究の重要性を痛感しているのは筆者らばかりではないようである 。