group: 資料說明 order: 20
AI-Ready Data 與 FAIR 原則
資料品質與開放性已成為 AI 時代的基礎建設。歐噴資料庫在設計上對齊兩套國際通行標準:FAIR 原則與 AI-Ready Data 框架。本文說明這兩套標準的核心精神,以及歐噴資料庫如何在每個面向落實。
FAIR 原則
FAIR 原則於 2016 年發表於 Scientific Data 期刊,全名為「FAIR Guiding Principles for Scientific Data Management and Stewardship」,旨在使資料對人類與電腦都能有效查找、取用、整合與再利用。FAIR 強調機器可操作性——隨著資料量與複雜度提升,越來越多處理工作需由電腦系統自動完成。
FAIR 四個面向各有具體子原則:
F — 可查找性(Findability)
資料與詮釋資料(metadata)本身應容易被人類和電腦找到。
- F1:詮釋資料和資料本身擁有全域唯一永久識別碼
- F2:使用豐富的詮釋資料描述資料
- F3:詮釋資料包含它所描述資料的識別碼
- F4:詮釋資料和資料本身在可搜索的儲存庫中註冊或建立索引
A — 可近用性(Accessibility)
找到資料後,使用者需要知道如何取用,包含可能涉及的身份驗證與授權。
- A1:詮釋資料和資料本身可藉由其識別碼,使用標準化通信協定進行檢索
- A1.1:該協定是開放的、免費的、可普遍實施的
- A1.2:該協定允許在必要時進行身份驗證和授權
- A2:即使資料本身不再可用,仍可取用其詮釋資料
I — 互通性(Interoperability)
資料通常需要與其他資料整合,也需要與應用程式或工作流程互操作。
- I1:詮釋資料和資料本身使用正式的、可取用的、共用的和廣泛適用的語言來表徵知識
- I2:詮釋資料和資料本身使用遵循 FAIR 原則的詞彙表
- I3:詮釋資料和資料本身包括對其他詮釋資料和資料的限定引用(qualified reference)
R — 再利用性(Reusability)
FAIR 原則的最終目標是優化資料的再使用,使資料能在不同情境中複製和組合。
- R1:詮釋資料和資料本身應採用多個準確和相關的屬性來詳細描述
- R1.1:連同清晰且可取用的「資料使用授權」一同發布
- R1.2:應包含「詳細出處/溯源」
- R1.3:符合與領域相關的社群標準
AI-Ready Data 框架(台灣數位部,2025)
數位發展部於 2025 年(民國 114 年)10 月發布「AI-Ready Data 詮釋資料框架指標指引」,以 FAIR 原則為基礎,加入世界銀行 AI-ready data 概念,並新增可信任性維度,共分 5 大構面、14 項指標:
| 構面 | 指標 | 說明 |
|---|---|---|
| 可查找性(Findability) | 完整性(Completeness) | 資料欄位無空值;詮釋資料欄位填寫完整 |
| 可發現性(Discoverability) | 詮釋資料提供名稱、關鍵字、分類、時間、空間等描述 | |
| 可近用性(Accessibility) | 可得性(Availability) | 提供下載網址、API;無需註冊即可取用;具備授權資訊與 API 說明文件 |
| 互通性(Interoperability) | 合規性(Conformity/Compliance) | 日期格式符合 ISO 8601;字元編碼符合規範 |
| 機器可讀性(Machine Readability) | 檔案格式可被自動化程序處理(CSV、JSON、XML) | |
| 開放性(Openness) | 檔案格式開放且廣泛支援 | |
| 再利用性(Reusability) | 及時性(Timeliness) | 詮釋資料提供更新頻率、上架日期、最近修改日期 |
| 一致性(Consistency) | 無重複資料;計量單位、資料型別、參數名稱統一 | |
| 相關性(Relevance) | 資料筆數與欄位符合應用需求 | |
| 可理解性(Understandability) | 詮釋資料提供背景目的說明、資料字典/代碼手冊 | |
| 可信度(Credibility) | 詮釋資料提供聯絡窗口、資料集發布者、用戶回饋機制 | |
| 可信任性(Trustworthiness) | 隱私及資料保護 | 針對隱私保護、偏差預防及透明度提供說明文件 |
| 偏差預防(Bias Prevention) | 說明資料是否可能偏差,及代表性與偏誤風險 | |
| 透明度(Transparency) | 說明資料來源、限制、處理方法 |
AI-Ready Data 框架同時對應多項國際標準,包括 W3C DCAT v2、Dublin Core Metadata Initiative(DCMI)、ISO 8000、ISO/IEC 11179、ISO 8601、GDPR 及 Schema.org/OpenAPI 等。
歐噴資料庫如何符合 FAIR 與 AI-Ready Data
可查找性:唯一識別碼與豐富詮釋資料
每個資料集都有唯一的 slug 識別碼(如 tw.gov.fia.eip~ref~business-tax),並對應一組 ARK 永久識別碼(格式:ark:/55753/{slug})。ARK 是學術界廣泛採用的永久識別碼標準,透過全球 ARK 解析器 n2t.net 可解析至歐噴資料集頁面,確保連結長期有效。
每個資料集的詮釋資料包含:名稱、說明、類型(ref / entity / txn / bulk / api)、資料來源機關、更新頻率、時間範圍、授權條款等欄位,提升資料的可發現性。
可近用性:標準 HTTP API、無需特殊工具
歐噴資料庫提供標準 REST API(HTTP/HTTPS),公開資料集無需帳號即可查詢。API 支援 JSON 格式輸出,相容所有程式語言與 AI 工作流程。大量資料集(bulk 類型)可直接下載 CSV 或透過 Google Sheets 存取,API 類資料集提供即時查詢端點。
即使單一資料集停止更新或下架,其詮釋資料(名稱、說明、來源機關、授權)仍會保留,符合 FAIR A2 原則。
互通性:開放格式與標準規範
資料以 JSON 格式提供,詮釋資料使用明確的欄位定義與資料字典,日期時間欄位遵循 ISO 8601 格式。資料集 slug 命名採倒置域名規則,確保來源可追溯,且不同資料集間的交叉引用(reference)有明確欄位標示。
每個資料集提供 skill.md 文件,描述資料欄位、查詢方式與應用場景,讓 AI Agent 和開發者都能快速理解如何使用資料。
再利用性:授權明確、更新頻率透明
每個資料集標示授權條款(如政府資料開放授權、CC-BY 等),確保使用者了解再利用條件。詮釋資料記錄資料上架日期、最近更新日期與更新頻率,讓使用者評估資料的時效性。資料來源可追溯至原始政府機關,提供完整的資料溯源(provenance)。
可信任性:來源透明、官方資料
歐噴資料庫收錄的政府開放資料均直接來自各部會機關的官方系統(如財政部、內政部、中央選舉委員會等),並標示原始來源網址與資料更新機制。對於歐噴整合多來源清整後的主資料(entity 類型),會明確說明整合方法與資料來源。
延伸閱讀
- GO FAIR — FAIR Principles
- 數位發展部「AI-Ready Data 詮釋資料框架指標指引」(民國 114 年 10 月)
- World Bank:From Open Data to AI-Ready Data(2023)
- 歐噴資料集識別碼規範:資料集識別碼(Slug)命名規範