
本当にGoogleは大ウソつきのカスっすね。
2024年に流出した検索アルゴリズムによって、Googleが公式見解で述べていた内容とは全く異なる実態となっていたことが明らかになっています。
その詳細
1. ドメイン権威
Googleの公式見解は「我々はドメイン権威のようなものは持っていない」というものだったが、siteAuthorityというfeatureの存在が確認された。
2. クリック
これもGoogleの公式見解と異なり、GlueやNavBoostというランキングシステムにより、クリック情報が検索ランクに影響を与えていることが明らかになった。NavBoostは2005年から存在していて、過去18ヶ月のクリックデータを元にしている。
3. ホスト年齢
hostAgeというフィーチャーの存在によって、生まれたばかりの新しいサイトはやはりサンドボックスに閉じ込められていることが明らかに。hostAgeという言葉自体がhost + ageの合成語だけでなく、一単語で「人質・担保」という意味を持つので言葉遊びですね。
4. Chromeのデータ
Chromeの利用データはサーチに影響しないという公式見解をよそに、やはりChromeのデータは使われていた。使わないわけがないので否定すること自体が公式見解の信憑性を損ねていたと思います。
5. アーキテクチャ
Googleのランキングシステムは単体の巨大なアルゴリズムではなくマイクロサービスの集合体。Trawler (クロール) / Alexandria (インデックス) / Mustang (ランキング) / SuperRoot (クエリー処理) などからなる。
6. リランカー
これに加えて、NavBoost / QualityBoost / RealTimeBoostなどのブースターでSERPの一等地に何を表示させるかを競い合わせている。中でもNavBoostは出現率が高く強力な様子。
7. Pandaアルゴリズム
Amit SinghalがリードしたPandaは、ユーザー行動や外部リンクなどに基づいてランクのスコアを調整する。特許にもなっている。ドメイン、サブドメイン、パスなどの多レベルで適用される。オブザーバビリティを担保するため、あえて機械学習を使ってないという点が印象的。
8. author属性
Google公式のE-E-A-T推奨通り、author属性は特徴量になっていた。ほとんどのサイトやフィードでauthor系メタデータはちゃんと入力されていないケースが多いが、これは対応したほうが良いかもしれない。
9. 降格
リンク先のコンテンツとのミスマッチ、SERPにおけるユーザー行動、UXの不備、検索ワードとドメイン名が完全一致する場合、製品レビュー系コンテンツ、グローバルページ、ポルノ、などは降格される。
10. リンクグラフはまだまだ重要
sourceTypeなどのメトリックによりリンクの重みが変わる。インデックス・ティアに分けられ、重要度高・更新頻度高・アクセス頻度高のコンテンツはより高速なフラッシュメモリに保存され、ティアの低いインデックスはハードディスクに保存される。
11. リンクスパムはベロシティ・シグナル重視
スパムは短期間に大量投下されたもののスパイクを検出することを特に重視している。怪しいものを見つけたら現在のベースラインと比較して異常値を検出。
12. 最新20件のページ更新履歴を保持
インデックスされたページの評価が高まってから変更して別のコンテンツに誘導するなどのハックを防ぐために過去20件の変更履歴を保持していることが判明。逆にいうと最大20件とバレてしまったので狙われそう…
13. ショートコンテンツの独創性を評価
Twitterのようなショートコンテンツでは、OriginalContentScoreにより、文字数をカウントし、オリジナリティを評価。
14. 日付は重要
鮮度は重要。bylineDate / syntacticDate / semanticDateなどにより、コンテンツの正確な日時情報を様々な角度から抽出している。
15. ビデオサイトは別扱い
もし50%以上のページがビデオならビデオサイトとして扱う
16. Your Money Your Life (YMYL) も特別扱い
公式情報通り、お金や健康など人生にクリティカルな影響を与える情報はより厳格に扱われる。
17. ゴールドスタンダードはある
goldenというフィーチャーで人間あるいはAIにラベルされたコンテンツは実在する。 paulgraham.com/articles.html とかかな笑
18. Embeddingによるトピックチェック
ページのコンテンツがサイトの趣旨に沿ったものであるかどうかをembeddingでチェックしている。これで、サイトにあると違和感を感じるような内容かどうかをチェック。
19. 零細個人サイトは特別扱い?
smallPersonalSiteというフィーチャーで、資金力にものを言わせることができない個人サイトは公平のためブーストしている様子。
出典:https://x.com/kenn/status/1795500175487832491
まとめると
・新参サイトはサンドボックス入り(検索除外扱い)
・YMYL系(お金や健康、医療、法律などの話)は厳格な審査が行われ、上位ヒットしづらい
【YMYL系の例】
・ビジネスや政治、国際系のニュース(全てのニュースではない)
・法律
・政治、公的機関
・お金、資産、投資、決済、クレカ、職業、教育
・健康、医療、薬学、病気、症状、栄養、美容
・防災
・人種、民族、宗教
・「Embedding」というAIでページがサイトの趣旨とあっているかをチェックしてる
・個人サイトはブーストがかけられている
・Google Chromeからはデータを得ていない→思いっきり得てる(大ウソつきポイント1)
・過去18か月のクリックデータをもとにランキングを決定している
・ドメインに権威はない→思いっきりある(大ウソつきポイント2)
・author属性は比較的重要
・日付は意外に重要。
1.bylineDate(記事に付いているメタデータの日付、WPなどでは自動出力される。手書き系サイトはこれがないので低評価に?)
2.syntacticDate(URLや題名に描かれている日付→【2025.3更新】など)
3.semanticDate(ページ内部を分析した日付→関連リンクやアンカーなど)
の観点から分析している
・アクセス頻度や更新頻度が高いサイトは高速なフラッシュメモリへ、その反対はHDDに保存される
・Twitterなどのショートコンテンツは文字数をカウントし、オリジナリティを評価している
・NavBoostという要素がある
・NavBoostはクリックを分析したもの。PC・スマホなどデバイス別にどのページがどれほどクリックされたのか、満足したのか不満なのかが蓄積されている
・降格要素の詳細が露見。詳しくは以下
1.リンク先コンテンツとのミスマッチ
2.SERP(サープ)におけるユーザー行動
3.UXがいまいち
4.検索ワードとドメイン名が完全一致
5.製品レビュー系コンテンツ
6.グローバルページ
7.ポルノ
8.リンクスパム(短期間の大量投下を監視)
関連リンク
コメントを残す