頻度分析

頻度分析の最新ニュースをまとめて検索!

頻度分析(ひんどぶんせき)とは、文章や会話中における各々の文字の頻出傾向の度合を分析することである。頻度解析とも。各々の言語の特性を知る上でも重要な分析である。初歩的なサイファー単一換字式暗号などの解読にも用いられる。※暗号解読法としての頻度分析は「頻度分析 (暗号)」を参照。

[編集] 概要

英語においては、普通文ではe、t、a、o、i、nなどの順で頻出する文字として知られている。逆にj、k、q、x、zなどは頻出しない傾向がある。

以下に具体例を列挙する。英語版Wikipediaトップページが解析対象である。画像に含まれる文字以外を全て解析対象とした。タグ等は含まない。大文字小文字の区別はしていない。有効数字二桁以降切り捨て

英語に於ける頻度分析結果(5835文字中)

文字 回数 百分率(%) 順位
a 543 9.30 3
b 70 1.19 22
c 212 3.63 11
d 217 3.71 10
e 666 11.41 1
f 118 2.02 16
g 110 1.88 17
h 189 3.23 12
i 550 9.42 2
j 10 0.17 23
k 81 1.38 20
l 233 3.99 9
m 145 2.48 14
文字 回数 百分率(%) 順位
n 437 7.48 5
o 398 6.82 7
p 134 2.29 15
q 10 0.17 23
r 386 6.61 8
s 410 7.02 6
t 474 8.12 4
u 179 3.06 13
v 77 1.31 21
w 85 1.45 19
x 8 0.13 25
y 89 1.52 18
z 4 0.06 26

英語版Wikipediaトップページ 15:00, 7 March 2007 (UTC)より


母音は頻出する傾向にある。あまり使われない子音は殆ど登場しないのが図表からわかる。 単語的なレベルからみると、a,theなどの冠詞などが頻繁に登場する。of,to,inなども頻出する。このような文法的特性は日本語でも同じである。

[編集] 暗号解読への応用

単一換字式暗号を解読する際に使用される。頻出する文字、しない文字の文法的な特性などを高度に鑑みて解読していく。

しかしこれはあくまで統計的なことで、意図的にeが全く使われなかった小説、『消失』(ジョルジュ・ペレック著、ギルバート・アデア訳。約200ページ)が存在する。

最終更新 2008年6月15日 (日) 18:47 (日時は個人設定で未設定ならばUTC)。
【頻度分析】変更履歴

ご利用上の注意

もっと調べる!