在 Java 中轉義 HTML

Zeeshan Afridi 2023年10月12日
  1. 如何轉義 HTML 標籤
  2. 如何在 Java 中轉義 HTML
在 Java 中轉義 HTML

本文介紹如何在 Java 中轉義 HTML 字元和符號。我們可以使用 Apache commons-textStringEscapeUtils.escapeHtml4(str) 方法來轉義 Java 中的 HTML 符號和字元。

如何轉義 HTML 標籤

我們識別標記及其特徵以避免和轉義 Java 程式中的 HTML 標記。假設我們有一個 <head> 標籤;我們知道以 < 開頭並以 > 結尾的東西將是特定場景中的標籤。

所以我們可以利用 HTML 標籤的這些特性,對 HTML 標籤進行轉義。為了更好地理解它,讓我們看看下面的例子。

<html lang="en-US">
<head>
    <meta http-equiv="content-type" content="text/html; charset=utf-8" />
    <link rel="shortcut icon" href="https://www.w3schools.com/images/w3schools_green.jpg" type="image/x-icon">
</head>

在上面的示例中,我們有多個 HTML 標籤,例如 <link><HTML><head><meta>。這些標籤是 HTML 標籤,每個標籤對瀏覽器都有特殊的意義。

為了更好地理解這一點,你可以轉到任何網頁,右鍵單擊頁面並選擇 Inspect 以檢視網頁的結構,該結構由不同的 HTML 標籤組成。

在 HTML 中,每個標籤都包含在小於 < 和大於 > 的符號中。所以重要的是要注意這些 <, > 符號有一些特定的含義,如果你在特定程式碼中使用 HTML 實體名稱而不是那些 HTML 字元,瀏覽器不會隱藏標籤,而是它將取代實際文字而不是解釋它。

所以用實體名稱&lt 替換 <。並將 > 替換為實體名稱&gt

&lt;html lang=&quot;en-US&quot;&gt;
&lt;head&gt;
    &lt;meta http-equiv=&quot;content-type&quot; content=&quot;text/html; charset=utf-8&quot; /&gt;
    &lt;link rel=&quot;shortcut icon&quot; href=&quot; https://www.w3schools.com/images/w3schools_green.jpg &quot; type=&quot;image/x-icon&quot;&gt;
&lt;/head&gt;

現在我們已經瞭解了轉義 HTML,讓我們瞭解如何在 Java 中轉義 HTML。

如何在 Java 中轉義 HTML

如本指南開頭所述,我們將使用第三方服務 Apache。它是一個以美國西南部印第安部落命名的軟體基金會。

Apache 的開發人員為 Apache 構建了軟體,引入了一些非常有用和有用的工具來加快開發過程。

這些有用的工具之一用於轉義字串中的 HTML。你需要做的就是在你的 pom.xml 檔案中包含依賴項。

匯入 Commons-Text 依賴項以在 Java 中使用 StringEscapeUtils

要使用 StringEscapeUtils,你必須匯入 commons-text 依賴項。

<dependency>
	<groupId>org.apache.commons</groupId>
	<artifactId>commons-text</artifactId>
	<version>3.12</version>
</dependency>
  1. 將此依賴項插入你的 POM 中,然後按以下步驟操作。
  2. 我們需要在 Java 中轉義 HTML 的方法是 StringEscapeUtils.escapeHtml4()StringEscapeUtils.unescapeHtml4()
  3. 在你的 Java 編譯器中編寫此程式碼。
String html = "<html lang=\"en-US\">\r\n"
    + "<head>\r\n"
    + "    <meta http-equiv=\"content-type\" content=\"text/html; charset=utf-8\" />\r\n"
    + "    <link rel=\"shortcut icon\" href=\" https://www.w3schools.com/images/w3schools_green.jpg \" type=\"image/x-icon\">\r\n"
    + "</head>";

// This is used to escape html
String escapedOutput = StringEscapeUtils.escapeHtml4(html);
System.out.println(escapedOutput); // printing the output

String html 只是我們在示例 1 中使用的 HTML 程式碼片段。

該程式的核心是 StringEscapeUtils.escapeHtml4(html),它負責在此上下文中轉義 HTML。StringEscapeUtils 類有不同的方法,但我們將使用 escapeHtml4()

現在,如果你嘗試執行上述程式碼,你將看到在本文第一部分中看到的轉義輸出。

在 Java 中獲取原始的未轉義資料

使用相同的 Apache StringEscapeUtils 類,我們可以輕鬆地將字串轉義為原始形式。為此,你必須在 Java 編譯器中使用以下程式碼。

String html = "<html lang=\"en-US\">\r\n"
    + "<head>\r\n"
    + "    <meta http-equiv=\"content-type\" content=\"text/html; charset=utf-8\" />\r\n"
    + "    <link rel=\"shortcut icon\" href=\" https://www.w3schools.com/images/w3schools_green.jpg \" type=\"image/x-icon\">\r\n"
    + "</head>";

String escapedOutput = StringEscapeUtils.escapeHtml4(html);
String original = StringEscapeUtils.unescapeHtml4(escapedOutput);
System.out.println(original);

在上面的程式碼中,我們在 escapeHtml4() 之後使用 StringEscapeUtils 類的 unescapeHtml4() 方法將轉義資料轉換為非轉義資料。

執行上面的程式碼,你會得到這個輸出。

<html lang="en-US">
<head>
	<meta http-equiv="content-type" content="text/html; charset=utf-8" />
	<link rel="shortcut icon"
href=" https://www.w3schools.com/images/w3schools_green.jpg " type="image/x-icon"> </head>
作者: Zeeshan Afridi
Zeeshan Afridi avatar Zeeshan Afridi avatar

Zeeshan is a detail oriented software engineer that helps companies and individuals make their lives and easier with software solutions.

LinkedIn