ナレッジの自動収集
この章では、ナレッジデータの収集機能について説明します。
ナレッジデータ収集機能は、外部サーバや外部システムからファイルを取得し、そのファイル内のコンテンツやファイルの属性を FastAnswer2 ナレッジとして自動登録する機能です。
ナレッジを自動収集する
データ収集とは
データ収集とは、外部サーバや外部システムからファイルを取得し、そのファイル内のコンテンツやファイルの属性を FastAnswer2 ナレッジとして自動登録する機能です。これにより、外部サーバやシステム上の情報をナレッジとして活用できるようになります。
データ取得対象の外部サーバやシステムには、次があります。
- ファイルサーバ
- Web サーバ
- Redmine (Web ベースのチケット管理システム)
- Trac (Web ベースのチケット管理システム)
データ取得できるファイルの種類は、次の 6 つです。
- テキスト
- Microsoft Office 形式のファイル (Word、Excel、PowerPoint)
- HTML
- XML
- json
データ取得のイメージ図を次に載せます。
- ポイント
-
- 動的に内容が変化するファイルはデータ収集の対象にはできません。たとえば、Web サーバがプログラムを使って動的に生成した HTML ファイルがこれに該当します。
- テキスト、Office 形式のファイル、PDF、HTML ファイルに関しては、ファイルのコンテンツとファイル属性を抽出します。
- Redmine、Trac からは、XML、json ファイルを取得し、情報を抽出します。
実行タイミング
データ収集の実行タイミングには、次の 2 種類があります。
スケジュール実行
事前に指定したタイミングで定期的に複数回実行。
即時実行
すぐに 1 回実行。
テスト実行
即時実行については、テスト実行が可能です。ボタンをクリックするとすぐに実行されますが、実際のデータ収集はされません。テスト実行の結果は、"FastHelp5 アプリケーションログ" に出力されます。
- ポイント
-
- システム環境変数 DATA_COLLECT_LOG_OUTPUT を "出力する" に設定しておくと、より詳細なテスト結果が出力されます。
- 運用ガイド
- システム環境変数については、以下を参照してください。
- 「ナレッジの自動収集 - ナレッジを自動収集する - 利用のための設定 - システム環境変数の設定」
- システム環境変数 DATA_COLLECT_LOG_OUTPUT を "出力する" に設定しておくと、より詳細なテスト結果が出力されます。
スケジュール実行の流れ
スケジュール実行時の基本的な流れは次のとおりです。
- データ収集設定を設定する
データ収集設定では、データ収集機能に関する基本的な情報を設定します。これには、対象のサーバやシステムの場所、収集したデータの登録先サイト名、データ収集の定期実行スケジュールが含まれます。 - データ収集設定の設定にしたがって、"データ収集サービス" が自動的に作成される
データ収集サービスは、 [サービス管理] - [サービス設定] - [ユーザ設定サービス] に作成されます。 - データ収集設定での実行スケジュール設定にしたがって、データ収集サービスが実行される
データ収集サービスが収集したデータは、ナレッジとしてサイトに登録されます。
- ポイント
-
- 即時実行の場合は、上記とは違い、すぐに 1 回実行されます。
実行モードとは
データを収集する際の動作モードを [実行モード] と呼びます。[実行モード] の設定値には、"全件"、"差分" の 2 つがあります。
実行モードに全件を選択すると、収集対象のファイルを毎回すべて新たに取得します。
差分を選択すると、ファイルの更新日時をもとに、データが前回収集されてから更新されたファイル、新規作成されたファイルのみを取得します。
実行モードは、 [データ管理] - [データ収集設定] - [データ収集設定詳細] で指定します。
サイト検索とは
外部ページの標準的な検索では、ナレッジを検索できます。検索対象がナレッジであるため、ユーザが検索結果をクリックすると、ナレッジの詳細が表示されます。
サイト検索機能を利用すると、このナレッジ検索に加えて、Web サーバ経由で収集したファイル (データ) に直接ジャンプするリンクも表示させることができるようになります。ユーザがこのリンクをクリックすると、該当ファイル (html ファイルや PDF) がブラウザの別画面に表示されます。
この機能により、ユーザはデータ収集先となった実際の Web ページ や PDF を簡単に確認できるようになります。
次に、サイト検索を利用した場合の外部ページの画面イメージを載せます。オレンジ色の枠で囲んだ部分がサイト検索により追加される部分です。
- ポイント
-
- サイト検索は、"Webサーバ" から収集されたデータに適用される機能です。
- 運用ガイド
- サイト検索の設定手順については、以下を参照してください。
- 「ナレッジの自動収集 - ナレッジを自動収集する - 利用のための設定 - サイト検索機能の設定」
利用のための設定
管理者の権限設定
データ収集の管理者には、次の権限が必要です。
| 対象者 | 必要な権限 |
|---|---|
| 管理者 | [システムロール] - [データ管理] - [データ収集設定] 内の各権限 |
データ収集設定
データ収集設定は、 [データ管理] - [データ収集設定] - [データ収集設定詳細]で行います。次に、[データ収集設定] の画面イメージを載せます。
[データ収集設定詳細] には、以下のグループが含まれます。それぞれに含まれる項目について以下に詳しく説明します。
- 基本の設定
- 高度な設定
- スケジュール設定
- 通知設定
- ポイント
-
- データ収集設定は、[有効にする] をクリックすることで有効になります。[有効にする] をクリックするまでは、必要項目が設定されていても、データ収集は実行されません。
- データ収集をすぐに実行する場合は、[即時実行] をクリックしてください。[即時実行] の代わりに [テスト実行] も可能です。テスト実行の場合は、実際のデータ収集は行われません。
- 運用ガイド
- テスト実行の詳細については、以下を参照してください。
- 「ナレッジの自動収集 - ナレッジを自動収集する - データ収集とは - 実行タイミング」
- メニュー別機能
- データ収集設定の設定手順については、以下を参照してください。
- 「データ管理 - データ収集設定 - [データ収集設定] を登録・編集する」
基本の設定
基本の設定では、データ収集に関して基本的な情報を指定します。主な項目は次のとおりです。
データ収集設定名
データ収集設定の名前を指定します。
登録先サイト
外部サーバや外部システムから取得したファイルをナレッジとして登録するサイトを指定します。
ナレッジ分類
収集したファイルを登録するナレッジのナレッジ分類を指定します。収集対象のファイルの内容に応じて、ナレッジ分類を設定します。
ナレッジ分類種別
収集したファイルを登録するナレッジのナレッジ分類種別を指定します。
データ収集方法
データ収集先のサーバ、システムの種類を指定します。"ファイルサーバ"、"Webサーバ"、"Redmine"、"Trac" のいずれかを選択してください。
URL/ファイルパス
データ取得対象のURL、ファイルパスを指定します。ファイルパスには、収集対象のディレクトリ名を指定してください。
URL は、http:// または https:// に続いて指定してください 。ファイルパスは、// に続いて指定してください。
ディレクトリ名の最後に、"/" がない場合は、実行前に自動で追加されます。
次に指定例を載せます。
- http://servername.com/web/
- //fileserver/shareName/directoryName/
- //fileserver/shareName (この場合は、共有名 (この例だと shareName) 直下のファイルがデータ取得対象となる)
実行モード
データ収集の動作モードを指定します。"全件"、"差分" のいずれかを指定します。
- 運用ガイド
- 実行モードの意味については、以下を参照してください。
- 「サイト設定 - データを自動収集する - データ収集とは - 実行モードとは」
自動公開
クロールしたデータを自動的に公開する場合に、チェックします。これは、サイト検索機能に必要な設定です。
初期値
ナレッジを登録する際の初期値を指定できます。
[初期値] をクリックすると、[初期値設定] サブウィンドウが開きます。このサブウィンドウで、初期値を指定してください。ナレッジの項目にファイル属性を表す予約記号を指定すると、収集したファイルの名前、ファイルパスなどの属性をナレッジの項目として登録することができます。
[初期値設定] サブウィンドウの画面イメージを以下に載せます。オレンジ色の四角で囲った部分が予約記号を指定している部分です。
例えば、ファイルサーバからナレッジを収集する場合、次の画面のように初期値を指定すると、ナレッジ名として該当ファイルのファイル名を登録することができます。
- 各種仕様詳細
- データ収集で利用できる予約記号の仕様については、以下を参照してください。
- 「予約記号一覧 - データ収集で利用できる予約記号一覧」
- ポイント
-
- テキスト、Office ファイル、PDF、HTML のコンテンツは、[ナレッジ] 画面には表示されませんが、FastAnswer2 内部では [検索キーワード] として保存されます。
- ユーザがファイルコンテンツに含まれる語句を [検索キーワード] に指定して検索すると、該当するナレッジが検索結果に表示されます。
有効期限
取得したファイルの有効期限を日数で指定します。取得したファイルの有効期限が過ぎた時には、FastAnswer2 はファイルを取得したサーバやシステムに接続し、ファイルの存在有無を確認します。ファイルが存在しない場合、または移動された場合は、ナレッジを FastAnswer2 上から自動的に論理削除します。
高度な設定
高度な設定には、基本の設定を補う情報を指定します。主な項目は次のとおりです。
適用URL/ファイルパス
基本の設定で設定した URL やファイルパス内で、取得対象としないファイルがある場合は、ここにその条件を指定します。たとえば、テキストファイルは取得しない場合は、".txt" を指定し、"を含まない" を選択してください。
条件には、"を含む"、"を含まない"、"である"、"でない"、"正規表現" を選択できます。
深さ
データ収集の範囲を基本の設定で設定した URL やファイルパスからの "階層の深さ" で指定します。
深さは、[データ収集方法] でファイルサーバ、Webサーバを指定した時に指定できます。
- (ファイルサーバの場合) 深さに 0 を指定すると、ファイルパスで指定したディレクトリ内のファイルが収集されます。1 を指定すると、指定したディレクトリに含まれるディレクトリ内のファイルも収集されます。2 を指定すると、もう 1 階層深いディレクトリ内のファイルも収集されます。
- (Web サーバの場合) 深さに 0 を指定すると、URL で指定したファイルのみが収集されます。1 を指定すると、URL で指定したファイルの中に含まれるリンク先のファイルも収集されます。1 より大きい数字を指定するごとに、より先のリンクファイルまで収集できます。ただし、リンク先のファイルが別の Web サーバ上にある場合は、収集されません。
間隔
データを取得する間隔をミリ秒で指定します。
認証方式
認証方式を指定します。"認証なし"、"BASIC認証"、"FORM認証"、"SMB認証" から選択します。認証方式に応じて、ユーザ名やパスワードも入力してください。
クロール対象拡張子
[データ収集方法] が "ファイルサーバ"、"Webサーバ" の場合に表示される項目です。クロール対象ファイルの拡張子を指定します。複数指定する場合は、カンマで区切ってください。
- ポイント
-
- ファイルサーバや Webサーバからデータを収集する場合は、[クロール対象拡張子] に指定されたファイルのみが収集対象となる点にご注意ください。指定されていない拡張子のファイルからは、データは収集されません。
スケジュール設定
スケジュール設定では、データ収集の実行タイミングを指定します。主な項目は次のとおりです。
定期実行タイプ
実行頻度を "日次指定"、"週次指定"、"月次日指定"、"月次週指定"、"パターン指定" から選択します。
定期実行設定
定期実行タイプで指定した内容にしたがって、タイミングを時間、分、曜日などで指定します。
- 各種仕様詳細
- パターン指定の仕様については、以下を参照してください。
- 「入出力ファイルフォーマット 一覧 - サービス / データ管理定期実行タイミングのパターン指定」
通知設定
データ収集では、データ収集の実行結果をメールやメッセージでユーザに通知することができます。主な項目は次のとおりです。
メールで通知
[通知する] をオンにするとメールで通知が送られます。あわせて、[SMTP設定]、[FROMアドレス]、[TOアドレス] も指定してください。
メッセージングで通知
[通知する] をオンにするとメッセージで通知が送られます。あわせて、[メッセージング通知先担当者] も指定してください。
システム環境変数の設定
データ収集に関連するシステム環境変数を次の表にまとめます。
| 変数名 | 説明 | 初期値 |
|---|---|---|
| DATA_COLLECTION_MAX_FILE_SIZE | データ収集で取得可能なファイルの最大サイズ。 | 157286400 (バイト) |
| DATA_COLLECT_FILE_MAX_BAND_WIDTH | ファイルクロールダウンロード最大帯域(byte/s)。-1 指定で無制限。 | -1 |
| MAX_COLLECT_DATA_COUNT | クロール時の最大取得データ件数。-1 指定で無制限。 | -1 |
| DATA_COLLECT_LOG_OUTPUT | クロール時のログ出力。"出力しない"、"出力する(通常)"、"出力する(通常/デバッグ)" のいずれかを選ぶ。 "出力する(通常/デバッグ)" を選択すると、ナレッジ登録されたファイルの情報だけでなく、登録対象から除外されたファイルの情報も出力される。 |
出力する(通常) |
- メニュー別機能
- システム環境変数の設定手順については、以下を参照してください。
- 「システム管理 - システム環境変数 - [システム環境変数] を編集する」
サイト検索機能の設定
サイト検索機能は、次の 3 つの設定が揃った時に有効になります。
- [データ管理] - [データ収集設定] 画面で、[データ収集方法] が "Webサーバ" の自動収集が設定されており、かつ [自動公開] にチェックが入っている。
- [サイト管理] - [ナレッジ分類] 画面の [外部ページ検索結果一覧クリックでの動作] で "紐づくファイル/URLを直接オープンする" にチェックが入っている
- [サイト管理] - [サイト] - [リソースセット] にサイト検索用のリソースセットが設定されている。
- ポイント
-
- サイト検索用のリソースセット入手方法に関しては、導入担当者にお問い合わせください。