ylistjp パッケージ開発チュートリアル • ylistjp

この記事では、ylistjp が小さな R パッケージとしてどのように構成されているかを説明します。公開データを、再現可能な解析用の道具に変える例として読むことを想定しています。

小さな課題から始める

最初の目標は単純です。

academic_name("コナラ")
#> [1] "Quercus serrata"

この短い API の裏側には、いくつかの設計判断があります。

小さな関数群ですが、データ取得、文字コード、キャッシュ、テスト、ドキュメント、GitHub Actions まで含むため、R パッケージ作成の教材として扱いやすい題材です。

ylistjp は、多くの R パッケージで使われる標準的な構成を使っています。

パス	このパッケージでの役割
`DESCRIPTION`	パッケージ情報、依存関係、URL、vignette 設定。
`NAMESPACE`	ユーザーに公開する関数。
`R/`	キャッシュ、読み込み、検索、GBIF 補助関数の実装。
`man/`	roxygen コメントから作られる関数リファレンス。
`tests/testthat/`	単体テストと小さな合成 YList fixture。
`vignettes/`	使い方ガイドやメンテナンスガイドなどの記事。
`_pkgdown.yml`	ドキュメントサイトのナビゲーションと reference 分類。
`.github/workflows/`	R package check と pkgdown deploy の GitHub Actions。

小さなパッケージでは、この構成で十分です。重要なのは、コードは R/、テストは tests/、長めの説明は vignettes/、自動化は .github/ というように、役割を分けておくことです。

中心になる使い方は次の形です。

library(ylistjp)

academic_name("コナラ")
academic_name("コナラ", with_author = TRUE)
ylist_search("コナラ")

その周辺に、役割のはっきりした関数を置いています。

関数	役割
`ylist_download()`	YList の公開タブ区切りファイルをユーザーキャッシュへ保存する。
`ylist_load()`	キャッシュ済みファイルを `data.frame` として読み込む。
`academic_name()`	和名の完全一致から標準学名を返す。
`ylist_search()`	候補行を返し、人間が確認できるようにする。
`gbif_match()`	学名を GBIF と照合する任意の補助関数。

この分け方にすると、簡単な用途は academic_name() だけで済み、必要な人は元データや候補行も確認できます。

ylistjp は YList データをパッケージ内に入れていません。データの流れは次の通りです。

この設計には 2 つの意味があります。まず、パッケージコードを MIT ライセンスで公開しても、YList データそのものを再配布しません。次に、解析で何度検索しても、検索のたびに YList サーバーへ問い合わせることがありません。

明示的に更新したい場合だけ、次のようにします。

ylist_download(overwrite = TRUE)
ylist_load(refresh = TRUE)

YList の公開タブ区切りファイルは CP932 として読み込んでいます。

utils::read.delim(
  file = path,
  sep = "\t",
  fileEncoding = "CP932",
  encoding = "UTF-8",
  stringsAsFactors = FALSE,
  check.names = FALSE
)

これは重要な実装ポイントです。日本語の公開データでは Shift-JIS や CP932 が使われていることがあります。R に文字コードの推測を任せると、環境によって 和名、学名、ステータス などの列名が読めなくなる可能性があります。

ソースコード中の列名は、環境をまたいで編集しやすくするため、必要に応じて Unicode escape で保持しています。

academic_name() は fuzzy search ではなく、解析で安定して使うための関数です。現在の仕様は意図的に狭くしています。

これにより、疑わしい候補をスクリプトが静かに採用することを避けます。曖昧な場合は ylist_search() で候補を確認します。

単体テストでは、YList 本体の大きなファイルを毎回ダウンロードしません。代わりに、挙動確認に必要な最小限の行だけを含む合成 fixture を使います。

この fixture で確認している主な点は次の通りです。

GBIF や YList への live test は任意にします。外部 API の確認は smoke test としては有用ですが、通常のローカルテストや pull request のたびに必須にすると不安定になりやすいためです。

ドキュメントサイトは pkgdown で作ります。

GitHub Actions で pkgdown を実行し、生成されたサイトを GitHub Pages に公開します。これにより、コードとドキュメントを同じリポジトリで管理でき、push ごとに再現可能な形で公開できます。

次の機能を足す場合も、保守的な既定動作を保つのが安全です。

探索的な機能は ylist_search() や補助関数に寄せ、academic_name() はスクリプトで予測しやすい挙動のままにしておくのが基本方針です。