group: 資料說明 order: 20

AI-Ready Data 與 FAIR 原則

資料品質與開放性已成為 AI 時代的基礎建設。歐噴資料庫在設計上對齊兩套國際通行標準：FAIR 原則與 AI-Ready Data 框架。本文說明這兩套標準的核心精神，以及歐噴資料庫如何在每個面向落實。

FAIR 原則

FAIR 原則於 2016 年發表於 Scientific Data 期刊，全名為「FAIR Guiding Principles for Scientific Data Management and Stewardship」，旨在使資料對人類與電腦都能有效查找、取用、整合與再利用。FAIR 強調機器可操作性——隨著資料量與複雜度提升，越來越多處理工作需由電腦系統自動完成。

FAIR 四個面向各有具體子原則：

F — 可查找性（Findability）

資料與詮釋資料（metadata）本身應容易被人類和電腦找到。

F1：詮釋資料和資料本身擁有全域唯一永久識別碼
F2：使用豐富的詮釋資料描述資料
F3：詮釋資料包含它所描述資料的識別碼
F4：詮釋資料和資料本身在可搜索的儲存庫中註冊或建立索引

A — 可近用性（Accessibility）

找到資料後，使用者需要知道如何取用，包含可能涉及的身份驗證與授權。

A1：詮釋資料和資料本身可藉由其識別碼，使用標準化通信協定進行檢索
- A1.1：該協定是開放的、免費的、可普遍實施的
- A1.2：該協定允許在必要時進行身份驗證和授權
A2：即使資料本身不再可用，仍可取用其詮釋資料

I — 互通性（Interoperability）

資料通常需要與其他資料整合，也需要與應用程式或工作流程互操作。

I1：詮釋資料和資料本身使用正式的、可取用的、共用的和廣泛適用的語言來表徵知識
I2：詮釋資料和資料本身使用遵循 FAIR 原則的詞彙表
I3：詮釋資料和資料本身包括對其他詮釋資料和資料的限定引用（qualified reference）

R — 再利用性（Reusability）

FAIR 原則的最終目標是優化資料的再使用，使資料能在不同情境中複製和組合。

R1：詮釋資料和資料本身應採用多個準確和相關的屬性來詳細描述
- R1.1：連同清晰且可取用的「資料使用授權」一同發布
- R1.2：應包含「詳細出處/溯源」
- R1.3：符合與領域相關的社群標準

AI-Ready Data 框架（台灣數位部，2025）

數位發展部於 2025 年（民國 114 年）10 月發布「AI-Ready Data 詮釋資料框架指標指引」，以 FAIR 原則為基礎，加入世界銀行 AI-ready data 概念，並新增可信任性維度，共分 5 大構面、14 項指標：

構面	指標	說明
可查找性（Findability）	完整性（Completeness）	資料欄位無空值；詮釋資料欄位填寫完整
	可發現性（Discoverability）	詮釋資料提供名稱、關鍵字、分類、時間、空間等描述
可近用性（Accessibility）	可得性（Availability）	提供下載網址、API；無需註冊即可取用；具備授權資訊與 API 說明文件
互通性（Interoperability）	合規性（Conformity/Compliance）	日期格式符合 ISO 8601；字元編碼符合規範
	機器可讀性（Machine Readability）	檔案格式可被自動化程序處理（CSV、JSON、XML）
	開放性（Openness）	檔案格式開放且廣泛支援
再利用性（Reusability）	及時性（Timeliness）	詮釋資料提供更新頻率、上架日期、最近修改日期
	一致性（Consistency）	無重複資料；計量單位、資料型別、參數名稱統一
	相關性（Relevance）	資料筆數與欄位符合應用需求
	可理解性（Understandability）	詮釋資料提供背景目的說明、資料字典/代碼手冊
	可信度（Credibility）	詮釋資料提供聯絡窗口、資料集發布者、用戶回饋機制
可信任性（Trustworthiness）	隱私及資料保護	針對隱私保護、偏差預防及透明度提供說明文件
	偏差預防（Bias Prevention）	說明資料是否可能偏差，及代表性與偏誤風險
	透明度（Transparency）	說明資料來源、限制、處理方法

AI-Ready Data 框架同時對應多項國際標準，包括 W3C DCAT v2、Dublin Core Metadata Initiative（DCMI）、ISO 8000、ISO/IEC 11179、ISO 8601、GDPR 及 Schema.org/OpenAPI 等。

歐噴資料庫如何符合 FAIR 與 AI-Ready Data

可查找性：唯一識別碼與豐富詮釋資料

每個資料集都有唯一的 slug 識別碼（如 tw.gov.fia.eip~ref~business-tax），並對應一組 ARK 永久識別碼（格式：ark:/55753/{slug}）。ARK 是學術界廣泛採用的永久識別碼標準，透過全球 ARK 解析器 n2t.net 可解析至歐噴資料集頁面，確保連結長期有效。

每個資料集的詮釋資料包含：名稱、說明、類型（ref / entity / txn / bulk / api）、資料來源機關、更新頻率、時間範圍、授權條款等欄位，提升資料的可發現性。

可近用性：標準 HTTP API、無需特殊工具

歐噴資料庫提供標準 REST API（HTTP/HTTPS），公開資料集無需帳號即可查詢。API 支援 JSON 格式輸出，相容所有程式語言與 AI 工作流程。大量資料集（bulk 類型）可直接下載 CSV 或透過 Google Sheets 存取，API 類資料集提供即時查詢端點。

即使單一資料集停止更新或下架，其詮釋資料（名稱、說明、來源機關、授權）仍會保留，符合 FAIR A2 原則。

互通性：開放格式與標準規範

資料以 JSON 格式提供，詮釋資料使用明確的欄位定義與資料字典，日期時間欄位遵循 ISO 8601 格式。資料集 slug 命名採倒置域名規則，確保來源可追溯，且不同資料集間的交叉引用（reference）有明確欄位標示。

每個資料集提供 skill.md 文件，描述資料欄位、查詢方式與應用場景，讓 AI Agent 和開發者都能快速理解如何使用資料。

再利用性：授權明確、更新頻率透明

每個資料集標示授權條款（如政府資料開放授權、CC-BY 等），確保使用者了解再利用條件。詮釋資料記錄資料上架日期、最近更新日期與更新頻率，讓使用者評估資料的時效性。資料來源可追溯至原始政府機關，提供完整的資料溯源（provenance）。

可信任性：來源透明、官方資料

歐噴資料庫收錄的政府開放資料均直接來自各部會機關的官方系統（如財政部、內政部、中央選舉委員會等），並標示原始來源網址與資料更新機制。對於歐噴整合多來源清整後的主資料（entity 類型），會明確說明整合方法與資料來源。