ある特定の機能をもつDNAには、ある特定の塩基配列が存在する。
遺伝子の発現について詳細を述べる前に、コンセンサス配列という概念について簡単に解説しておきたい。
コンセンサス配列
RNAポリメラーゼが結合して転写の開始位置と方向を決定するプロモーター、転写の終結部位を決定するターミネーター、特定のタンパク質が結合する配列など、ある特定の機能をもつDNA領域には特定の塩基配列が存在することが多い。例えば、詳細は後のページで解説するが、mRNA中のアミノ酸配列をコードする領域は、AUG配列からスタートする。
上の図は、ヒトの6つ遺伝子のmRNA塩基配列を、AUG配列(翻訳開始点)を揃えて並べてみると、その周囲の配列もなんとなく似ている気がしなだろうか。そこで、脊椎動物の699種類のmRNAの塩基配列をAUGの位置を揃えて並べ、AUG配列周辺のそれぞれの位置における塩基の出現頻度をまとめたのが次の図である。色をつけてある部分が、最も出現頻度の高い塩基である。
Kozak, M. (1987) Nucl. Acids Res. 15, 8125-8148より引用・改変
こうしてみると、翻訳開始点の周辺では、GCCACCAUGGという塩基配列の出現頻度が高いことがわかる。これが、コンセンサス配列である。つまりコンセンサス配列とは、DNAやRNA(あるいはタンパク質)中で、一定の機能に関与している領域に高い頻度で出現する塩基(あるいはアミノ酸)の平均的な配列ということである。
コンセンサス配列の表し方
別の例で考えてみよう。
下図のようにある架空の機能に関与する塩基配列を8つ並べてみると、それぞれの位置での塩基の出現頻度が求められる。ここからコンセンサス配列が分かるのだが、この例では1つの塩基に絞ることのできない部分がある。例えば、一番左の塩基はGとAの出現頻度が50%/50%、左から2番目の塩基は4種類すべての塩基が同じ頻度で現れる。
このような場合、一番左の塩基は(A/G)と表すか、あるいはRと一文字で表す。同様に、左から2番目の塩基は(A/G/C/T)とするか、あるいは Nと一文字で表す。このような一文字標記の表し方を、下にまとめた。これは、IUPAC (International Union Of Pure and Applied Chemistry)で定められた塩基の表記である。
では、どのようにコンセンサス配列を絞り込む基準はどうなっているのだろうか。
一般的に、ある1塩基が50%以上を占める場合や2番目に頻出する塩基の少なくとも2倍の出現頻度があれば、その1塩基を示す。2つの塩基がその部位で75%以上の出現頻度を占めていれば、その2塩基を示す。ある1塩基のみが全く出現しない場合は、残りの3塩基を示す。また、複数塩基を示す場合でも、出現頻度の低いものについては小文字で示すこともある。