2013年07月01日

また全文検索に挑戦しようかな

以前、某プロジェクトで日本語の全文検索システムを開発することになったが、途中で挫折した苦い経験がある。(結局 senna を使わせてもらうことでお茶を濁した。)
しかし、大量のデータをかかえた情報の海からどうやって目的の検索を達成しているのか技術的な話には興味がある。
少し前の本であるが、この本は最近の大量のテキスト処理を行う場合の処理手法として3つの方法を紹介した本である。
岩波の本というと例題がほとんどなくて補題だけ書いてあって先に行ってしまう印象があるが、この本は一歩進む度に例題を示し、理解を助けている。

まだ BWT を読んでいるところであるが、簡潔データ木などは以前のプロジェクトで使えそうな内容である。読破したらまた読後感想文をアップしたいと思う。

プロジェクト始める前にこの本が出ていれば、もう少し自分で実装したのになあ... 残念。
posted by みのしす at 01:01| Comment(1) | TrackBack(0) | 日記