2026年4月|元データ:AirOps「The Fan-Out Effect」レポート / Kevin Indig「Growth Memo」
はじめに:なぜ今この研究が重要か
「SEOで1位を取ればいい」という時代は終わりつつある、と言われるようになって久しいですね。 そもそも「SEO対策は終わった」と言われて20年程度は経っている気もしますが、未だにSEO対策は重要で、中でもAI概要(AI Overview)の影響は認知に大きなインパクトを与えます。 そこで実際にChatGPTは何を根拠にページを引用しているのか。 感覚論ではなく、データで答えようとした研究が2つあります。
AirOpsとSEOストラテジストのKevin Indigが共同で実施した大規模分析と、Kevin IndigがGrowth Memoで発表した引用パターンの解析です。 本稿は、それら一次資料を直接参照したうえで、正確な数字と留保事項を整理します。
引用=善ではない
AI概要への露出が原因でサイトアクセスが激減し、成果数が下がる事例もあります。 概要欄で内容を抜粋で見て、サービスの魅力が伝わらないケースが出てきています。
調査概要
AirOps「The Fan-Out Effect」
| 項目 | 数値 |
|---|---|
| 分析クエリ数 | 16,851 |
| 分析ページ数 | 353,799 |
| クエリ×ページペア | 815,000 |
| 対象業界 | 10カテゴリ |
| 計測方法 | ChatGPT UIに各クエリを3回送信。内部検索・取得URL・引用URLをすべてキャプチャ |
見出し一致の計測:BAAI/bge-base-en-v1.5による埋め込みベクトル(テキストを数値の配列に変換し、意味的な近さを表現したもの)のコサイン類似度(2つのベクトルの向きの近さを0〜1のスコアで表す類似度指標)(閾値0.80)で、ページの見出し群とChatGPTのfanout(1つの質問を複数のサブクエリに展開する処理)サブクエリとの一致度を数値化しています。
Kevin Indig「Growth Memo」引用パターン分析
| 項目 | 数値 |
|---|---|
| 総引用数 | 約98,000件 |
| 総レスポンス数 | 約120万件 |
| 対象ドメイン | 670 |
| 対象業界 | B2B SaaS、金融、医療、教育、暗号資産、HR Techほか |
主要な発見:7つの事実
1. 引用を最も左右するのは「検索順位」
ChatGPTは独自の検索を行い、その結果から引用するページを選びます。そのretrieval rank(取得順位:ChatGPTが内部検索を行った際に、そのページが何番目に取得されたか)が引用率に直結します。
| 取得順位 | 引用率 |
|---|---|
| 1位 | 58.4% |
| 5位 | 約30% |
| 10位 | 14.2% |
Google検索での1位ページがChatGPTに引用される確率は43.2%で、20位圏外のページの3.5倍にのぼります(Kevin Indig調査)。
含意:コンテンツの中身を最適化する前に、まずGoogleでの上位表示が前提条件になります。AI引用とSEOは切り離せない関係にあります。
具体的なイメージとして考えてみましょう。あるユーザーが「CRMツールの比較」とChatGPTに質問したとします。ChatGPTはまず内部でBing検索等を実行し、上位ページをリトリーバル(retrieve:検索結果から関連情報を取得・引き出す処理)します。その時点でGoogleの圏外(20位以下)にいるページは、そもそも「候補リスト」にすら入れません。引用されるかどうかの勝負は、コンテンツの質の前に、検索可視性の段階で大半が決まっているのです。
2. 引用の分布は「二極化」している
58%のページは1度も引用されず、25%のページは毎回引用されます。この2グループは従来の指標(DA(ドメインオーソリティ:サイト全体の被リンク数や質をもとに算出される信頼スコア、最大100)、語数、被リンク)では区別できません。
「中間層(17%)はほぼ存在しない。引用されるかどうかは、コンテンツ品質よりも取得フィルタの段階で決まっている」 — AirOps Fan-Out Effect レポート
さらに、同一クエリを3回送った場合にすべての試行で引用されたのはわずか2.3%です。ChatGPTの引用は本質的に不安定であることを示しています。
この不安定性には実務上の重要な示唆があります。「先週引用されていたのに今週は消えた」という現象は、コンテンツの品質が下がったわけではなく、ChatGPTの確率的な挙動によるものです。単一記事の引用獲得を追いかけるより、複数クエリで安定して上位に取得されるサイト全体の権威構築が、より再現性の高い戦略です。
3. 「網羅性」より「的確な一致」
見出しとクエリの一致度が引用率に明確な差をもたらします。
| 見出し一致度 | 引用率 |
|---|---|
| 0.90以上(直接一致) | 41% |
| 0.80未満(関連のみ) | 29〜30% |
より驚くべきはfanout coverage(サブクエリカバー率:ChatGPTが展開した複数のサブクエリのうち、そのページが回答できているものの割合)の結果です。
| カバー率 | 引用率の傾向 |
|---|---|
| 26〜50% | 最も高い |
| 100% | 26〜50%より低い |
「完全網羅型のアルティメットガイド」が最も引用されるという仮説は、このデータに反します。ChatGPTは特定のサブクエリに的確に答えるページを好みます。
これは直感に反する発見のひとつです。多くのコンテンツマーケターが「1記事で全部カバーすれば最強」と考えがちですが、ChatGPTのロジックはむしろ逆です。「この質問に対してこのページがズバリ答えている」という精度が重視されます。記事を細分化して各クエリに特化させる戦略が、AI引用の文脈では有効に働きやすいといえます。
4. 語数とコンテンツ長の実態
AirOps Fan-Out Effectの推奨:500〜2,000語、見出し7〜20個
ただし、Kevin Indigの別分析では業界ごとに最適値が異なります:
| 業界 | 傾向 |
|---|---|
| 教育・暗号資産 | 長いほど引用数が増加(上限なし) |
| 金融 | コンパクトで情報密度の高いページが優位 |
| 一般 | 5,000〜10,000字付近が最大の改善ポイント(約2倍の引用数増) |
| 20,000字超 | 平均10.18引用 vs 500字未満2.39引用 |
「500〜2,000語」はあくまでFan-Out Effect研究における平均的な引用ページのプロファイルであり、業界・クエリタイプによって大きく異なります。
実務で判断するには、自分のサイトが属する業界の競合上位ページの語数を計測し、その分布を把握することが先決です。金融系であれば「密度重視の1,500字」、教育系であれば「網羅的な5,000字超」と、業界ベンチマークから逆算するアプローチが有効です。
5. ドメインオーソリティは逆相関
元研究の最も反直感的な発見のひとつです:
| グループ | 平均DA |
|---|---|
| 常に引用されるページ | 53 |
| 一度も引用されないページ | 56 |
DAが高いほどやや引用率が下がる傾向があります。ただし、これは因果ではなく相関の話であり、「DAを下げれば引用される」という解釈は誤りです。
同様に、Reddit(DA 92)の引用一貫率は0.59%にとどまっており、ドメイン権威と引用率は切り離して考える必要があります。
この結果が示す本質は「大手メディアだから安泰ではない」ということです。DA 53程度の専門特化型メディアが、DA 90超の大規模ポータルサイトより高い引用率を達成できる。これは特定ニッチに特化した中規模サイトにとって、AI引用獲得のチャンスが十分にあることを意味しています。
6. ページ内の「位置」も引用に影響する
Kevin Indig分析によれば、ページの前半30%が全引用の44.2%を占めます。
| ページ内位置 | 引用集中度 |
|---|---|
| 上位10〜20%(導入直後) | 最も高い |
| 下位10% | 2.4〜4.4%(最低) |
結論・まとめセクションはほとんど引用されません。重要な主張・データは前半に置くことが有効です。
この知見は、ライティングの構成に直接影響します。「結論は最後に書く」という論文的な文章構造は、AI引用の文脈では不利に働きます。新聞の「逆ピラミッド構造」(最重要情報を冒頭に、補足を後半に)がAI引用においても有効なアプローチです。具体的には、H2の直下に主張や数値を置き、その後で詳細説明・背景・補足を続けるレイアウトが推奨されます。
7. 引用集中の現実:30ドメインが67%を占有
業界ごとのトップ30ドメインが、そのカテゴリの引用の67%を独占しています(Kevin Indig調査)。
| 業界 | 集中度(上位10%) |
|---|---|
| 教育 | 59.5% |
| 暗号資産 | 43.0% |
| 金融 | 29.4% |
| 医療 | 13.0% |
| HR Tech | 14.4% |
引用されたURLの67%は1つのクエリにしか登場しないです。繰り返し引用されるのは、複数クエリをまたぐカテゴリ横断型の比較・まとめページ(全体の4.8%)に集中しています。
教育分野の集中度59.5%は特に高く、Coursera・Khan Academy・Wikipedia等の少数プレイヤーが市場を支配している構造を反映しています。一方、医療・HR Techは比較的分散しており、新規参入サイトが引用を獲得できる余地が大きい業界です。自分の業界がどの集中構造にあるかを把握することが、AI引用戦略の出発点となります。
留保すべき重要な点
① この研究はChatGPT UIに限定される
各クエリはChatGPT UIで3回送信されています。API、Perplexity、Gemini、Claude等では異なる可能性が高いです。
特にPerplexityは独自のインデックスを持ち、引用パターンがChatGPTと大きく異なることが別調査でも示唆されています。「ChatGPTで引用された」という事実をそのままPerplexity最適化の根拠にするのは危険です。
② Wikipediaは例外
Wikipediaは平均retrieval rank 24位にもかかわらず59.2%の引用率を達成しています。4,383語、31リスト、6.6テーブルという構造的な特異性によるもので、他サイトへの再現性は確認されていません。
Wikipediaを「引用されやすいページの手本」として参照することは、この研究では推奨されていません。Wikipediaは訓練データへの深い組み込みと、構造の均質性という固有の優位性を持っており、一般サイトとは別カテゴリで扱う必要があります。
③ 記憶引用(Memory Citations)の混入
6,371件の引用はウェブ検索を経ずに訓練データから直接引用されており、通常のコンテンツ最適化では到達できません。
この「記憶引用」はChatGPTのトレーニングカットオフ以前に大量クロールされたページに集中していると考えられます。新規公開ページが記憶引用を狙うことは現実的ではなく、ウェブ検索経由の引用を最大化する戦略に集中すべきです。
④ フレッシュコンテンツの罠
公開30日以内のページの引用率は25.3%と低いです。「新しいほどいい」という直感に反する結果です。
これはChatGPTのリトリーバルシステム(検索結果からページを取得・選別する仕組み)が新規ページのインデックス浸透を待つためと考えられます。公開直後に引用されなくても、3〜6ヶ月後に引用率が上がるケースが想定されます。短期の引用数だけで記事の評価を下すのは早計です。
⑤ 構造化データの効果は限定的
JSON-LD(検索エンジン向けに構造化した意味情報を記述するためのスクリプト形式)スキーマの追加は+6.5ポイントの改善にとどまります。根本的な差は生みません。
構造化データは「あれば加点」程度の補助的な要因です。スキーマ実装に工数をかけるより、見出し設計・コンテンツの焦点絞り込み・内部リンク構造に注力する方が費用対効果は高いといえます。
実務的な示唆
元研究の知見を正確に解釈すると、推奨される行動は以下の優先順になります:
第一優先:Googleでの上位表示を維持する ChatGPTの引用は検索経由で行われます。retrieval rank 1位と10位では引用率が4倍以上異なります。AI引用の最大の規定因子は現時点でも従来のSEOです。
第二優先:見出しをクエリと直接一致させる 「この記事は何の質問に答えているのか」が見出しから即座に判別できるよう設計します。余計な前置きより、クエリに直接対応したH2〜H3を配置します。たとえば「CRMツールとは?」という検索クエリに対して、H2を「CRMツールとは」として直接置くのが有効です。「○○について詳しく解説します」といった前置き見出しは引用率を下げる可能性があります。
第三優先:特定の問いに焦点を絞る 1記事で1つのクエリに的確に答える設計が、複数のサブクエリを網羅しようとする設計より引用率が高いです。「1クエリ1記事」の原則を意識したコンテンツカレンダーの設計が、AI引用の文脈でも有効に機能します。
第四優先:重要情報をページ前半に置く 引用の44%はページ上位30%から発生します。主張・データ・結論は冒頭近くに配置します。「まず答え、次に根拠」という順序で書くことが、AI引用とユーザー体験の両面で有効です。
業界によって語数の最適値は異なる 金融・医療系はコンパクトで密度の高い記事が有利です。教育系は長いほど引用が増える傾向があります。自分の業界の競合ページをサンプリングして語数分布を把握したうえで、目標語数を設定しましょう。
よくある質問(FAQ)
Q. AI引用を増やすために、まず何から始めればいいですか?
A. まずGoogleでの検索順位を確認することです。ChatGPTの引用は検索経由で行われるため、Google 20位圏外のページは引用の候補にすら入りません。既存コンテンツの中でGoogleで10〜20位にいる記事を特定し、そのページの見出し設計と前半の情報密度を改善するのが最もROIの高い出発点です。
Q. AI引用とGoogle SEOは別々に対策が必要ですか?
A. この研究の結論は「現時点では別々に対策する必要はない」です。ChatGPTの引用規定因子の筆頭はGoogleでの取得順位であり、従来のSEOとAI引用の最適化は大きく重複します。ただし「見出しのクエリ直接一致」や「ページ前半への重要情報集中」といったAI引用特有の要素は、通常のSEO対策に追加で意識する必要があります。
Q. 引用されたかどうかを確認する方法はありますか?
A. 現時点で自動的に引用を検知する公式な方法はありません。実務的には、AirOpsやBrightEdge等のAI引用トラッキングツールを使うか、手動でターゲットクエリをChatGPT UIに複数回入力して引用URLを記録する方法があります。定期的なモニタリングを設計することが推奨されます。
Q. 記事を更新すると引用率は変わりますか?
A. データは限定的ですが、公開30日以内のページの引用率が低いことから、更新後も一定の「熟成期間」が必要と考えられます。コンテンツの大幅リライトより、見出しの最適化や前半構成の改善といった軽微な更新の方が、インデックスの安定性を保ちながら引用率を改善できる可能性があります。
Q. 日本語コンテンツでも同じデータが適用できますか?
A. この研究は主に英語コンテンツを対象としており、日本語への直接適用には注意が必要です。ただし、「検索順位が引用率を規定する」「ページ前半への情報集中が有効」といった構造的な知見は、言語に依存しない普遍的な原則と考えられます。語数の最適値や業界別の集中度については、日本語圏での追加調査を待つ必要があります。
まとめ
AirOps×Kevin Indigの研究が示す構造はシンプルです:
まず検索エンジンに発見される → 次にその中で「的確さ」で選ばれる
「AIはGoogleを捨てて独自判断する」という幻想はデータで否定されています。一方で、「強いドメインが総取りする」という旧来の常識も完全には当てはまりません。引用の鍵はドメイン権威でも語数でもなく、特定のクエリへの精度にあります。
ただし、引用の2.3%しか3回連続で一致しないという不安定性は忘れてはなりません。個別の引用獲得を狙う戦術より、複数クエリをまたぐトピック権威の構築が長期的に安定した戦略といえます。
AI引用の世界はまだ黎明期にあり、今後ChatGPTのアーキテクチャ(システム全体の設計構造・処理の仕組み)やリトリーバル設計(どのページをどのように取得・選択するかの設計方針)が変化すれば、最適化の方程式も変わり得ます。定期的に一次データを追いながら、戦略をアップデートし続けることが、この領域で優位に立つための最も確実なアプローチです。