Geolocation Tech、静県図書館 資料収集へ自治体サイト巡回システムを開発

Geolocation Technology(月刊事業構想2019年3月号参照)は、静岡県立中央図書館と共同で、静岡県内の自治体Webサイトにアップロードされた要項・要領、広報誌、行政資料などの自治体資料のPDFを自動収集するシステムを開発した。地域資料収集のために用いるものだ。2022年5月19日に発表した。

今回開発したWebサイトクローリングシステムは、静岡県内の自治体Webサイトを自動かつ定期的に巡回し、情報を取得・保存(クローリング)するというもの。ドメイン内に格納されているPDFを収集するが、集めたPDFはGoogle Driveで収集した日付毎に、収集元のドメインと同じディレクトリ構造で保存・管理される。初回のクローリングでは、その時点におけるクローリング範囲内にあるPDFを全て収集し、2回目以降は前回との差分ファイル(含む更新)を収集する。収集したPDFの保管名称を一定の規則に沿って自動で変換するリネーム機能を実装することで、人手による作業を極力減らし、膨大なデジタル文書の収集を効率的に行うことが可能となる。

近ごろは自治体資料でもWebにアップするのみで、紙媒体の発行を行わない例も多くなっている。紙媒体として発行された自治体資料を対象とした従来の資料収集の方針では、Webサイトにしかない自治体資料は対象外となっていた。

静岡県立中央図書館