お金を払ってでも欲しい要約 - 書評 - テキスト自動要約

図書館で久々にぐぐっとくる文献を見つけました。自然言語処理や人工知能方面で有名な奥村先生と難波先生共著のテキスト自動要約って本です。自然言語処理に興味がある方は興味深く読むことができる無いようかと思います。やや専門的な話が多いので、自然言語処理を勉強したことがない方は、頭が痛くなる数式とかでてきます。(僕も後者ですが・・・w)

本書が書かれたのが 2005 年ではありますが、その後テキスト要約の分野がめざましく発展したかというと、ケータイの高機能化が進むにつれて逆に下火になってしまった感が強いのですが、自然言語処理分野は今後も必須の web 技術なので読んでおいて損はないと思います。

本書の後書きにもあるとおり、本書はテキスト自動要約に関する要約です。

「お金を払ってでも欲しい要約」は人によって違うだろうが、筆者にとっては専門書がそれにあたる。一般に言って、専門書とはある分野の複数の研究をまとめたものであり、一種の要約である。
テキスト自動要約 (知の科学)
奥村 学 難波 英嗣
オーム社
売り上げランキング: 336017

大量の情報を処理する「テキスト自動要約」を、概論から応用まで総合的に解説する。
人工知能研究の最前線を「核心部分」から「応用分野」まで、実際に挑み続ける研究者自身が
解説するシリーズ第3弾。


さて、本書は著者自らがまえがきで宣言をしているとおり、本書を読んだからと言ってテキスト要約システムが構築することはまずできないでしょう。とはいえ本書を読んでおかないと要約システムを作る最低限の基礎知識を身につけるのも難しいでしょう。

本書がテキスト自動要約の教科書として、テキスト自動要約の研究分野の全体像を把握する上では役立つにしても、実際のテキスト自動要約システムを構築する上で、すぐに役立つかという点では、少し弱いように感じているところである。
- スポンサーリンク -

目次


第1章 テキストの自動要約概論
 1.1 我々の身近にある要約
 1.2 テキスト自動要約とは
 1.3 テキスト自動要約技術の背景
 1.4 テキスト自動要約の関連技術
 1.5 要約の種類
 1.6 要約の手法,モデル
 1.7 テキスト自動要約に必要な言語処理技術
 1.8 本書の構成
第2章  人間の要約作成手法
 2.1 専門的な要約作成者の要約作成手法
 2.2 人間の自由作成要約を目指して
 2.3 人間による複数テキスト要約の作成
第3章  テキスト自動要約の基礎
 3.1 重要分抽出による要約
 3.2 文短縮による要約
第4章  より多様な要約作成を目指して
 4.1 テキスト自動要約における研究の方向性
 4.2 抽象化,言い換えによるアブストラクト作成
 4.3 ユーザに適応した動的な要約法
 4.4 要約の表示方法について

第5章  単一テキスト要約システムの現在
 5.1 単一テキスト要約システムのシステム構成
 5.2 冗長性の少ない要約に向けて
 5.3 要約における言い換え,書き換えの役割
第6章  複数テキストを対象にした要約
 6.1 複数テキスト要約のポイント
 6.2 テキスト間の類似点と相違点
 6.3 一般的な複数テキスト要約システムの構成
 6.4 研究事例
 6.5 ウェブ上のニュース記事要約システム
第7章  テキスト自動要約システムの性能評価
 7.1 内的な評価方法
 7.2 外的な評価方法
 7.3 複数テキスト要約を対象にした自動評価
 7.4 日米におけるテキスト自動要約システムの評価型プロジェクト
第8章  テキスト自動要約の応用
 8.1 ナビゲーションのための複数テキスト要約
 8.2 携帯端末向け情報提示
 8.3 障害者の情報保証
 8.4 議事録,発表資料自動作成
 8.5 要約対象の幅の広がり
付録 テキスト自動要約についてもう少し詳しく知るには

さて、本書を読んで備忘録としてまとめておく情報はこんな感じ。一時期要約システムを作ろうと萌えていた時期があるので、その熱が再熱したときにココを読むとしよう。

専門的な要約作者の要約作成手法について

(1) テキストの精査
(2) 主題となるパッセージの同定
(3) 切り貼り操作
(4) 推敲
ステップ1,2が要約のドラフトを作成する過程に相当。通常は拾い読みする過程。ステップ2ははさらにテキストの構造を解析する。ステップ3ではドラフト中の複数の内容を集約したり、不要情報を削除したりする過程。最後に推敲。こんな感じらしい。

重要分抽出に用いられるテキスト中の特徴について

(1) テキスト中の単語の重要度を利用する
(2) テキスト中あるいは段落中での分の位置情報を利用する
(3) テキストのタイトル等の情報を利用する
(4) テキスト中の手がかり表現を利用する
(5) テキスト中の分あるいは単語間のつながりの情報を利用する
(6) テキスト中の文間の関係を解析したテキスト構造を利用する

伝統的な要約手法からの脱却

(1) 抽出 → アブストラクト作成
 内容を言い換えたりすることで、抜粋ではなく、アブストラクトを作成することを目指す。
(2) generic な要約 → query-biased な要約
 特定のユーザを想定し、ユーザの関心を反映した要約作成を目指す。
(3) 単一テキスト要約 → 複数テキスト要約
 複数のテキストを要約対象都市、それらの内容をまとめて、1つの要約として出力することを目指す。
(4) 分抽出 → 分短縮
 文中の重要ヶ所を抽出したり、不要ヶ所を削除することで文を短くし、テキスト全体を要約することを目指す。
(5) 要約の提示方法の検討
 単にテキストとして要約を出力するのではなく、より多彩な要約の出力方法を模索する。

単一テキスト要約システムのシステム構成

重要分抽出 → 冗長性判定 → 重要ヶ所抽出 → 書き換え

一般的な複数テキスト要約システムのシステム構成

(1) 関連するテキストの自動収集
(2) 重要分抽出
(3) テキスト間の類似点と相違点の抽出
(4) 重要ヶ所抽出
(5) 重要ヶ所の出力順序の決定
(6) 書き換え

実際のアルゴリズム等は数式とがでてきてキッチリ読む時間がなかったので、要約システムにサイド興味がでてきたときに図書館でまた借りてきて読み返そうかと思っています。要約システムが自然言語処理の中でも難易度が高い部類に位置する理由は、性能評価の困難さにあります。テキストの要約は人間が処理しても人によって出力はまちまちだし、その評価もまたまちまち。したがって、それをシステム化する際にも評価基準を作るのが困難です。研究すればするほど本格的な要約システムの難易度の高さが、よりはっきりとわかるようになり、それによりいったん両手を揚げた状態になっているのかしら?

なんて思ったり・・・

最後に、テキスト自動要約に関するウェブページ へのリンクで締めくくりたいと思います。このリンクからたどれる幾つかの情報も既に死んでいたりします・・・。

- スポンサーリンク -