---
group: 資料說明
order: 20
---
# AI-Ready Data 與 FAIR 原則

資料品質與開放性已成為 AI 時代的基礎建設。歐噴資料庫在設計上對齊兩套國際通行標準：FAIR 原則與 AI-Ready Data 框架。本文說明這兩套標準的核心精神，以及歐噴資料庫如何在每個面向落實。

---

## FAIR 原則

FAIR 原則於 2016 年發表於 *Scientific Data* 期刊，全名為「FAIR Guiding Principles for Scientific Data Management and Stewardship」，旨在使資料對人類與電腦都能有效查找、取用、整合與再利用。FAIR 強調**機器可操作性**——隨著資料量與複雜度提升，越來越多處理工作需由電腦系統自動完成。

FAIR 四個面向各有具體子原則：

### F — 可查找性（Findability）

資料與詮釋資料（metadata）本身應容易被人類和電腦找到。

- **F1**：詮釋資料和資料本身擁有全域唯一永久識別碼
- **F2**：使用豐富的詮釋資料描述資料
- **F3**：詮釋資料包含它所描述資料的識別碼
- **F4**：詮釋資料和資料本身在可搜索的儲存庫中註冊或建立索引

### A — 可近用性（Accessibility）

找到資料後，使用者需要知道如何取用，包含可能涉及的身份驗證與授權。

- **A1**：詮釋資料和資料本身可藉由其識別碼，使用標準化通信協定進行檢索
  - **A1.1**：該協定是開放的、免費的、可普遍實施的
  - **A1.2**：該協定允許在必要時進行身份驗證和授權
- **A2**：即使資料本身不再可用，仍可取用其詮釋資料

### I — 互通性（Interoperability）

資料通常需要與其他資料整合，也需要與應用程式或工作流程互操作。

- **I1**：詮釋資料和資料本身使用正式的、可取用的、共用的和廣泛適用的語言來表徵知識
- **I2**：詮釋資料和資料本身使用遵循 FAIR 原則的詞彙表
- **I3**：詮釋資料和資料本身包括對其他詮釋資料和資料的限定引用（qualified reference）

### R — 再利用性（Reusability）

FAIR 原則的最終目標是優化資料的再使用，使資料能在不同情境中複製和組合。

- **R1**：詮釋資料和資料本身應採用多個準確和相關的屬性來詳細描述
  - **R1.1**：連同清晰且可取用的「資料使用授權」一同發布
  - **R1.2**：應包含「詳細出處/溯源」
  - **R1.3**：符合與領域相關的社群標準

---

## AI-Ready Data 框架（台灣數位部，2025）

數位發展部於 2025 年（民國 114 年）10 月發布「AI-Ready Data 詮釋資料框架指標指引」，以 FAIR 原則為基礎，加入世界銀行 AI-ready data 概念，並新增**可信任性**維度，共分 5 大構面、14 項指標：

| 構面 | 指標 | 說明 |
|------|------|------|
| 可查找性（Findability） | 完整性（Completeness） | 資料欄位無空值；詮釋資料欄位填寫完整 |
| | 可發現性（Discoverability） | 詮釋資料提供名稱、關鍵字、分類、時間、空間等描述 |
| 可近用性（Accessibility） | 可得性（Availability） | 提供下載網址、API；無需註冊即可取用；具備授權資訊與 API 說明文件 |
| 互通性（Interoperability） | 合規性（Conformity/Compliance） | 日期格式符合 ISO 8601；字元編碼符合規範 |
| | 機器可讀性（Machine Readability） | 檔案格式可被自動化程序處理（CSV、JSON、XML） |
| | 開放性（Openness） | 檔案格式開放且廣泛支援 |
| 再利用性（Reusability） | 及時性（Timeliness） | 詮釋資料提供更新頻率、上架日期、最近修改日期 |
| | 一致性（Consistency） | 無重複資料；計量單位、資料型別、參數名稱統一 |
| | 相關性（Relevance） | 資料筆數與欄位符合應用需求 |
| | 可理解性（Understandability） | 詮釋資料提供背景目的說明、資料字典/代碼手冊 |
| | 可信度（Credibility） | 詮釋資料提供聯絡窗口、資料集發布者、用戶回饋機制 |
| 可信任性（Trustworthiness） | 隱私及資料保護 | 針對隱私保護、偏差預防及透明度提供說明文件 |
| | 偏差預防（Bias Prevention） | 說明資料是否可能偏差，及代表性與偏誤風險 |
| | 透明度（Transparency） | 說明資料來源、限制、處理方法 |

AI-Ready Data 框架同時對應多項國際標準，包括 W3C DCAT v2、Dublin Core Metadata Initiative（DCMI）、ISO 8000、ISO/IEC 11179、ISO 8601、GDPR 及 Schema.org/OpenAPI 等。

---

## 歐噴資料庫如何符合 FAIR 與 AI-Ready Data

### 可查找性：唯一識別碼與豐富詮釋資料

每個資料集都有唯一的 **slug 識別碼**（如 `tw.gov.fia.eip~ref~business-tax`），並對應一組 **ARK 永久識別碼**（格式：`ark:/55753/{slug}`）。ARK 是學術界廣泛採用的永久識別碼標準，透過全球 ARK 解析器 n2t.net 可解析至歐噴資料集頁面，確保連結長期有效。

每個資料集的詮釋資料包含：名稱、說明、類型（ref / entity / txn / bulk / api）、資料來源機關、更新頻率、時間範圍、授權條款等欄位，提升資料的可發現性。

### 可近用性：標準 HTTP API、無需特殊工具

歐噴資料庫提供標準 REST API（HTTP/HTTPS），公開資料集無需帳號即可查詢。API 支援 JSON 格式輸出，相容所有程式語言與 AI 工作流程。大量資料集（`bulk` 類型）可直接下載 CSV 或透過 Google Sheets 存取，API 類資料集提供即時查詢端點。

即使單一資料集停止更新或下架，其詮釋資料（名稱、說明、來源機關、授權）仍會保留，符合 FAIR A2 原則。

### 互通性：開放格式與標準規範

資料以 **JSON** 格式提供，詮釋資料使用明確的欄位定義與資料字典，日期時間欄位遵循 ISO 8601 格式。資料集 slug 命名採倒置域名規則，確保來源可追溯，且不同資料集間的交叉引用（reference）有明確欄位標示。

每個資料集提供 `skill.md` 文件，描述資料欄位、查詢方式與應用場景，讓 AI Agent 和開發者都能快速理解如何使用資料。

### 再利用性：授權明確、更新頻率透明

每個資料集標示授權條款（如政府資料開放授權、CC-BY 等），確保使用者了解再利用條件。詮釋資料記錄資料上架日期、最近更新日期與更新頻率，讓使用者評估資料的時效性。資料來源可追溯至原始政府機關，提供完整的資料溯源（provenance）。

### 可信任性：來源透明、官方資料

歐噴資料庫收錄的政府開放資料均直接來自各部會機關的官方系統（如財政部、內政部、中央選舉委員會等），並標示原始來源網址與資料更新機制。對於歐噴整合多來源清整後的主資料（`entity` 類型），會明確說明整合方法與資料來源。

---

## 延伸閱讀

- [GO FAIR — FAIR Principles](https://www.go-fair.org/fair-principles/)
- [數位發展部「AI-Ready Data 詮釋資料框架指標指引」](https://moda.gov.tw/)（民國 114 年 10 月）
- [World Bank：From Open Data to AI-Ready Data](https://blogs.worldbank.org/en/opendata/from-open-data-to-ai-ready-data--building-the-foundations-for-re)（2023）
- 歐噴資料集識別碼規範：[資料集識別碼（Slug）命名規範](/knowledge/dataset-slug)
