プロファイル

カレンダー

S M T W T F S
     12
3456789
10111213141516
17181920212223
24252627282930
<< September 2017 >>

categories

archives

放射線観測値

Radiation

福島第一原発
福島第二原発
柏崎刈羽原発
電力館

電力消費量

SEOシリーズその1 形態素解析


みなさんこんにちは、南雲です。先日久しぶりにバイクでツーリング行ってきました。私は400ccのアメリカンで行ったのですが、一緒に行ったメンバーがV-MAXだのTRIUMPH SPEED TRIPLEだので、峠を攻めたので、一緒について行きながら、低いバンクセンサーをガリガリ言わせながら頑張りました(^^;

さて、今回はちょっと毛色が変わった内容です。Webマーケッティングの中でもSEOに関する話題です。今回から何回かお話したいと思います。

Webマーケッティングの概要やSEM(リスティング)については、いろんな書物が出ているので、それ以外のところをお話します。

まず一回目は形態素解析です。

はて?と思われる方もいらっしゃるとは思いますが、形態素解析。これがとても重要なんです。

例えば、「私はバイクが欲しい」とサーチエンジンで検索したとします。

検索エンジンは、検索語をどうやって認識し、自分の持っている巨大なデータベースとつき合わせるのでしょうか?

実は、この「私はバイクが欲しい」という、言葉を分解してマッチングしています。

この「私はバイクが欲しい」を分解すると、

仮にYahooがこの言葉を受け取ったとすると
私+は+バイク+が+ほしい
になります。

そして、この「私+は+バイク+が+ほしい」という形態素と一番合っていて、かつランクの高いサイトから順番に表示されます(ランクというか評価のつけ方は又今度)。

この「私はバイクがほしい」を「私+は+バイク+が+ほしい」に分解するアルゴリズムを”形態素解析”といいます。

形態素解析について詳しくは、「言語学」という本屋にコーナーに行ってください。難しすぎて詳しく説明できません、、、

ただ、
チョムスキーが1960年代に、「世界じゅうの数多くの言語には、 実はそのすべてに共通する「普遍文法 (universal grammer)」がある」なんて、大見得きっちゃったもんだから、みんな一所懸命研究してます。本当でしょうか、チョムスキーさん、、、


しかし、言語学で言うと音声は以下の5つに分類されます。

「http://www.unixuser.org/~euske/ 新山祐介さんのHPから引用」
これらの分野について簡単に解説しておく。 音韻論とは、「あー」とか「ひょげ」とかいう音と文字の関係、 子音と母音の組み合わさり方などを明らかにするものである。 形態論が単語とか、品詞とかについて、その語形変化や並び方などを 研究する分野。語形論とも呼ばれる。構文論がチョムスキーの考えた 生成文法を研究する分野にあたる。語や文節がどのように「かたまり」を作って、 どのようにそれらが入れ子になったり、他の「かたまり」を修飾したり するのだろうか、といった研究である。意味論とは、ひとつひとつの 「単語」がどのような意味をもっているか、といった分野だが、この 分野はまだ構文論にくらべて研究が進んでいない。語用論はあるひとつの 文 (発話) をとりあげ、その発話が文脈の中でどのような働きをもっているか を研究する (たとえば依頼や婉曲、皮肉など)。こっちのほうはもっと 研究が進んでいない。ましてやこれらをとり入れた自然言語処理システムなど、 今のところ一つもない。
言語論                    ↑対応モジュール
─────────────┼──────────────────
1.音韻論 phonology        │音素解析モジュール (いわゆる音声認識)
2.形態論 morphology       │形態素解析モジュール
3.構文論 (統語論) syntax  │構文解析モジュール
4.意味論 semantics        │意味解析モジュール
5.語用論 pragmatics       │談話 (discourse) 解析モジュール

現在は、やっとこさ構文解析モジュールが出てきたくらいなので、まだまだなんです。

さて、SEOとなんの関係があるかというと、お客様のHPに出現する言葉(キーワード)の数と量(出現頻度)が問題で、検索エンジンはこれを全て形態素解析で解析しています。

そして、これをデータベース化しているのです。

たとえば、A社のホームページは「鍋」を売りたいというページで、「鍋」が10回、「お買い得」が10回出現すると、検索エンジンはA社のページには「鍋」×10、「お買い得」×10のキーワードがある。と認識し、この情報を保存しておきます。

次に、「鍋 お買い得」と入力して検索した人が居たとしたら、検索エンジンはこの人にこのA社のホームページが一番適していると考えて、検索結果に表示することになります。

実はこの形態素解析した結果のデータを保存しているのが、クラウドストレージになります。クラウドストレージの話もまた今度しますね。これはこれで結構面白いもので、まだまだ研究の余地があるエンジニアにとっても、物凄く興味があるものなので^^

全てのページは検索エンジンが持っているこの形態素解析エンジンによって解析され、データとして保存されています。

一度皆さんのページも形態素解析して、どんなキーワードがどんな出現頻度になっているか解析してみたら如何でしょうか?

ちなみに形態素解析してくれる無料サイトが数多くありますので、ぜひ
「キーワード解析 無料」なんて探してみては如何でしょうか。
ちなみに、http://www.keyword-kaiseki.jp/
このサイトで無料で解析してくれます。

SEOに関する書物は別途ご紹介します。

なぐも


コメント
コメントする








   
この記事のトラックバックURL
トラックバック