Bash で XML を解析する

MD Aminul Islam 2023年6月20日
  1. xmllint を使用して Bash で XML を解析する
  2. XMLStarlet を使用して Bash で XML を解析する
Bash で XML を解析する

XML をいまだに扱っていない開発者を見つけることはほとんど不可能です。 これは、データの構造化と転送に広く使用されている人気のあるマークアップ言語です。

この記事では、Bash を介して XML を解析する方法を示します。

ここでは、2つのライブラリについて説明します。 最初のライブラリは xmllint で、2 番目のライブラリは XMLStarlet として知られています。

それらを使用する前に、それらをインストールする必要があります。

xmllint を使用して Bash で XML を解析する

これは、XML ファイルの解析に使用できる最も一般的なライブラリです。 ただし、使用する前にライブラリをダウンロードしてインストールする必要があります。

このライブラリをインストールするには、以下のコマンドを実行する必要があります。

sudo apt-get update -qq
sudo apt-get install -y libxml2-utils

apt-get を使用して libxml2-utils パッケージをインストールする必要があります。

MyXML.xml という名前の XML ファイルがある場合は、次のコマンドを使用して XML を簡単に取得できます。

xmllint MyXML.xml

上記のコマンドを実行すると、次のような出力が得られます。

<?xml version="1.0"?>
<specification>
        <type>Laptop</type>
        <model>Macbook</model>
        <screenSizeInch>14</screenSizeInch>
</specification>

このライブラリには、いくつかのオプションまたはフラグが含まれています。 ライブラリで利用可能なオプションを以下に示します。

  1. --auto - このフラグは、テスト用のドキュメントを生成するためのものです。
  2. --catalogs - このフラグは SGML_CATALOG_FILES のカタログを使用するためのものです。 それ以外の場合は、デフォルトで /etc/xml/catalog が使用されます。
  3. --chkregister - このフラグは、ノード登録をオンにするためのものです。
  4. --compress - このフラグは、出力の gzip 圧縮をオンにするためのものです。
  5. --copy - このフラグは、内部コピーの実装をテストするためのものです。
  6. --c14n - このフラグは、stdout による解析結果をシリアル化する W3C XML Canonicalization (C14N) を使用するためのものです。 また、結果にコメントを保持します。
  7. --dtdvalid URL - このフラグは、検証のために URL によって指定された DTD を使用するためのものです。
  8. --dtdvalidfpi FPI - このフラグは、検証用の公開識別子 FPI が指定する DTD を使用するためのものです。 このフラグを使用するには、公開識別子として機能するカタログのエクスポートが必要になることに注意してください。
  9. --debug - このフラグはファイルを解析するためのものです。 また、ドキュメントのメモリ内バージョンである注釈付きツリーも出力します。
  10. --debugent - このフラグは、ドキュメントで定義されたエンティティをデバッグするためのものです。
  11. --dropdtd - このフラグは、出力から DTD を削除するためのものです。
  12. --dtdattr - このフラグは外部 DTD を取得します。 また、継承された属性をツリーに取り込みます。
  13. --encode - このフラグは、指定されたエンコーディングで出力を提供します。
  14. --format - このフラグは、出力を再フォーマットし、再インデントします。
  15. --help - このフラグは、xmllint の使用方法の概要を出力します。
  16. --html - このフラグは、HTML パーサーを使用するためのものです。
  17. --htmlout - このフラグは結果を HTML ファイルとして表示します。 結果をブラウザで表示/表示できるように、結果ツリー出力を囲む必要な HTML タグを出力します。
  18. --insert - このフラグは、有効な挿入をテストするためのものです。
  19. --loaddtd - このフラグは、外部 DTD を取得するためのものです。
  20. --load-trace - このフラグは、stderr への処理時にロードされたすべてのドキュメントを表示します。
  21. --maxmem NNBYTES - このフラグは、パーサー メモリ サポートをテストするためのものです。 ここで、NNBYTES は、ライブラリが割り当てることができる最大バイト数です。
  22. --memory - このフラグはメモリからの解析用です。
  23. --noblanks - このフラグは、無視できる空白を削除します。
  24. --nocatalogs - このフラグは、カタログを使用しないことを指定します。
  25. --nocdata - このフラグは、同等のテキスト ノードを介して CDATA セクションを置き換えます。
  26. --noent - このフラグは、エンティティ参照をエンティティ値に置き換えます。
  27. --nonet - このフラグは、インターネットを使用して DTD またはエンティティを取得しないことを指定します。
  28. --noout - このフラグは出力を抑制します。 xmllint はデフォルトで結果ツリーの出力を表示します。
  29. --nowarning - このフラグは、バリデーターやパーサーから警告を出さないように指定します。
  30. --nowrap - このフラグは、HTML doc ラッパーを出力しないことを指定します。
  31. --noxincludenod - このフラグは XInclude 処理を行いますが、XInclude 開始ノードと終了ノードを生成しないように指定します。
  32. --nsclean - このフラグは、冗長な名前空間宣言を削除するためのものです。
  33. --output FILE - このフラグは、xmllint が解析結果を保存するファイル パスを定義します。
  34. --path "PATH(S)" - このフラグは、DTD またはエンティティをロードするために PATHS で指定された Filesystem パスの (コロン区切りまたはスペース区切りの) リストを使用します。 ここで、スペース区切りのリストは引用符で囲みます。
  35. --pattern PATTERNVALUE - このフラグは、リーダー インターフェイスで使用できるパターン認識エンジンを実行するためのものです。 デバッグにも使用されます。
  36. --postvalid - このフラグは、解析が完了した後に検証するためのものです。
  37. --push - このフラグは push モードを有効にします。
  38. --recover - このフラグは、無効なドキュメントの解析可能な部分を出力するためのものです。
  39. --relaxng SCHEMA - このフラグは、検証のために SCHEMA という名前の RelaxNG ファイルを使用します。
  40. --repeat - このフラグは、タイミングまたはプロファイリングのために 100 回繰り返すためのものです。
  41. --schema - このフラグは、SCHEMA として知られる W3C XML スキーマ ファイルを使用します。
  42. --shell - ナビゲーション シェルを実行します。
  43. --stream - このフラグは API のストリーミング用です。
  44. --testIO - このフラグは、ユーザーの入出力サポートをテストします。
  45. --timing - このフラグは、xmllint がさまざまなステップを実行するのにかかる時間に関する情報を出力します。
  46. --valid - このフラグはドキュメントの有効性をチェックします。
  47. --version - このフラグはライブラリのバージョンを表示します。
  48. --walker - このフラグは walker モジュールをテストします
  49. --xinclude - このフラグは XInclude 処理を行います。
  50. --xmlout - このフラグは主に --html と組み合わせて使用されます。 XML シリアライザーを使用してドキュメントを保存します。 主に HTML から XHTML への変換に使用されます。

XMLStarlet を使用して Bash で XML を解析する

XML ドキュメントを解析するためのもう 1つの一般的なライブラリは、XMLStarlet として知られています。 ライブラリの主要なコマンドは xmlstarlet です。

このライブラリをインストールするには、root として以下のコマンドを実行する必要があります。

sudo dnf install xmlstarlet

これには、XML ファイルの検証、変換、またはクエリを容易にする便利なオプションが含まれています。 ライブラリの最も単純なコマンドを使用して、XML ファイルを簡単に取得できます。

xmlstarlet format MyXML.xml

上記のコマンドを実行すると、XML ファイルの内容が次のような出力として表示されます。

<?xml version="1.0"?>
<specification>
        <type>Laptop</type>
        <model>Macbook</model>
        <screenSizeInch>14</screenSizeInch>
</specification>

この記事で使用するコードはすべて Bash で記述されています。 Linux シェル環境でのみ動作します。

著者: MD Aminul Islam
MD Aminul Islam avatar MD Aminul Islam avatar

Aminul Is an Expert Technical Writer and Full-Stack Developer. He has hands-on working experience on numerous Developer Platforms and SAAS startups. He is highly skilled in numerous Programming languages and Frameworks. He can write professional technical articles like Reviews, Programming, Documentation, SOP, User manual, Whitepaper, etc.

LinkedIn