資料集類型說明:參照資料與主資料

歐噴資料入口的部分資料集帶有「參照資料」或「主資料」標記。本文說明這兩種標記的意義,以及如何善用它們查詢與整合資料。


參照資料(Reference Data)

正式術語:Reference Data(又稱 Lookup Data、Code Table)

主角是代碼本身。參照資料是以代碼為主鍵的查找表,來自單一官方主管機關的標準代碼系統,讓其他資料集能對應查詢。

主要特點:

  • 來自單一官方機關,具有官方權威性
  • 資料量相對小(通常不超過數十萬筆)
  • 異動頻率低,代碼一旦確立通常長期穩定
  • 主鍵即代碼,具有明確唯一性

典型範例:

  • 縣市代碼(內政部)
  • 選舉種類代碼(中央選舉委員會)
  • 學校代碼(教育部)
  • 醫事機關代碼(衛生福利部)
  • 政府機關代碼(人事行政總處)

如何使用:

當你手上有一份資料,裡面只有代碼(如 65000)沒有名稱,就可以拿這份參照資料做 JOIN,把代碼「翻譯」成人類可讀的名稱(如「新北市」)。

你的資料                   + 縣市代碼參照資料     →  完整資料
{ county_id: "65000" }    _id: "65000"           { county_id: "65000",
                          _name: "新北市"           county_name: "新北市" }

主資料(Master Data)

正式術語:Master Data(主數據管理學科:Master Data Management,MDM)

主角是「實體」本身。當同一個現實世界的實體(如一個政府機關、一位政治人物)在多個官方來源中各有不同的代碼系統,就需要整合成統一資料集,這就是主資料。

主要特點:

  • 整合多個官方來源的代碼系統
  • 需要判斷「不同代碼其實是同一個實體」(這是最難的部分)
  • 可能需要歐噴自創統一主鍵,作為跨系統的橋接依據
  • 附加價值高,但工程量也最大

兩種常見情況:

情況 A — 多套代碼整合:有官方資料,但分散在不同系統,需要比對整合。

例如「公務機關主資料」:同一個機關,在人事總處、國發會 OID、主計總處各有不同的代碼,三套系統互有差異與缺漏,需要逐一對應。

情況 B — 根本沒有官方統一清單:歐噴需要自行成為主數據提供者。

例如「政治人物主資料」:選委會、立法院、各地議會的名單分散在不同資料集,沒有任何官方機關維護統一的政治人物清單,需要歐噴自行彙整。

典型範例:

  • 公務機關主資料(整合人事總處代碼 + 國發會 OID + 主計總處代碼)
  • 政治人物主資料(整合各屆選舉候選人、立委、議員名單)

比較表

參照資料 主資料 一般交易資料
英文術語 Reference Data Master Data Transactional Data
主角 代碼 實體 事件或統計數字
代碼來源 單一官方機關 多來源整合(可能自創)
資料量 小(<10k 筆)
異動頻率
Portal 標記 參照資料 badge 主資料 badge 無特別標記

可以同時標記嗎?

可以。如果某份資料集本身是一套代碼系統(參照資料),同時也已完整到足以作為某類實體的統一主數據(主資料),可以同時標記兩者。


交易資料(Transactional Data)是什麼?

未標記參照資料或主資料的資料集,通常是交易資料,以「事件」或「統計數字」為主角。

常見子類型:

子類型 說明 典型範例
定期統計型 每個週期(年/月)產生一筆彙總數字 學校招生人數、醫院病床數、政府預算
事件申報型 每個事件產生一筆記錄 政治獻金申報、標案決標、公司設立登記

交易資料通常資料量較大,適合用條件篩選查詢(時間範圍、地區、類型等)。


代碼設計原則

歐噴自創的主鍵代碼(用於整合型或代碼型資料集)遵循以下原則:

確定性(Deterministic):給定相同規則,任何人都能獨立生成相同代碼,不依賴資料庫自動分配。

可讀性(Human-readable):代碼本身帶有語意,方便人工辨識與 debug。

穩定性(Stable):代碼一旦分配應盡量不變。

可攜性(Portable):代碼可被其他資料集引用,形成資料間的關聯。


📄 查看原始 Markdown