一、簡介

本平台為國立清華大學人文社會AI應用與發展研究中心(以下稱本中心)因公共化AI的理念所開發,提供本國人文社會領域學者進行文字資料標註,轉換為結構化資料,以做為AI相關應用的文字訓練資料集,亦可轉換成其他量化研究使用。若有更多的人文社會領域參與這個標註過程與累積文字資料集,將有助於未來與AI技術人員溝通,發展更適當的AI應用,以擴展人文社會領域與AI領域的合作,推動公共化AI。以下是本平台使用說明與連結,歡迎有興趣的同仁可以先行參閱並練習使用。

二、標註平台練習步驟

(一)了解標註的意義與使用方式

請先觀看本中心「文字標註系統導論線上課程」,了解整個標註的意義與平台的使用方式,課程分為以下三集:(1) 文字標註的意義與應用、(2) 文字標註的流程與平台設計、(3) 人文社會AI文字標註平台使用示範

(二)標註團隊於平台註冊使用

建議您可同時播放「(3) 人文社會AI文字標註平台使用示範」同步觀看與練習,會更有幫助。

1.登入本平台

請先進入「人文社會AI文字標註平台」測試網站,入口網頁如下圖:

標註平台

2.建立練習用專案管理者

「專案管理者」有權限建立專案、指派標註者與上傳標註原始資料與下載標註檔案的負責人,建議以該計畫的執行者或主要負責助理(而非標註人員)擔任。請先用下列幾個練習用「專案管理者」試用帳號登入(密碼皆為test123):

test_owner1@data-loaves.com、
test_owner2@data-loaves.com、
test_owner3@data-loaves.com。

請注意:(1)這些帳號為協助使用者練習與測試標註流程用途,因此無法變更密碼。(2)建議使用者只要上傳少數檔案練習流程即可,因為可能有多人參與練習,因此在此測試平台請勿上傳任何機密或敏感資料,本平台不負任何保管或相關責任。(3)若登入後看到其他練習者上傳之測試資料,請勿修改或刪除他人的試用專案。(4) 本中心已經先上傳範例專案,「範本一_網路危機訊息偵測專案」,供所有使用者可以先行測試。(5)建議先觀看本中心「文字標註系統導論線上課程」,了解平台使用方式。

3.建立練習用標註者

專案的標註者可以用以下兩個測試帳號測試多人參與標註。「標註者」權限為進行資料標註,無任何專案管理的權限。需由專案管理者邀請標註者加入專案並分派資料後,標註者才參與標註與討論。標註者試用帳號(測試密碼亦皆為test123):

test_annotator1@data-loaves.com、
test_annotator2@data-loaves.com。

請注意:(1)標註者也可以自行以自己私人的E-mail進行註冊,標註者帳號的建立並不需要後端審核同意。(2)在標註者註冊帳號後,專案管理者可以在專案中輸入其註冊E-mail找到該標註者,並邀請他進入特定專案。(3)以此方式註冊的標註者,只有被特定專案管理者所邀請,才能在進入平台後看到該專案之資料。所以其平台頁面會與專案管理者的頁面不同。(4) 本中心已經先上傳範例專案,「範本一_網路危機訊息偵測專案」,供所有使用者可以先行測試。(5)建議先觀看本中心「文字標註系統導論線上課程」,了解平台使用方式。

(三)資料標註準備、進行與結果

1.資料轉檔

本平台使用「.json」檔案上傳,專案管理者須先將原始文字檔案 (.txt、.docx、.pdf的純文字檔案)轉檔,才能上傳至標註平台。
請注意:

(1)請下載轉檔程式「標註轉檔小幫手」,直接於您的電腦上執行。
(2)再跟隨「本平台之轉檔說明」,進行資料轉檔。
(3)檔案中有非純文字的格式、表格或圖片等等,轉檔後將不會出現在標註平台上,請使用者自行注意。
(4)若需要的話(非必要),可以先使用本中心提供的「
網路危機訊息偵測專案_原始文件範本.zip(資料夾)來作轉檔練習。

2.建立標註清單

標註清單為用於標註文字資料的各種標籤或類別。本平台使用「.json」檔案建立標註清單。本平台提供一個現成用於標註網路危機訊息之標註清單範例。請於此下載:網路危機訊息偵測專案_標註清單範本.json

(註:本中心也另外提供兩份標註清單範本可作參考:離婚後親權裁判預測專案_標註清單範本.json槍砲彈藥判決量刑因子專案_標註清單範本.json。相關原始文件範本都已放在標註平台上供使用者參考)

建立標註清單項目前,請注意:(1)標註清單涉及如何建立訓練AI用的分析架構或標籤,因此,與您要執行的任務目標或要解決的問題密切相關。(2)標註清單內之項目多寡也會影響標註所需人力與時間的需求。而太少的標籤可能無法獲得有意義或足夠精準的結果,但太多標籤不但花費大量人力,更可能也讓資料模式過於發散,不易得到高準確率的AI訓練結果。(3)建議先參考「(1) 文字標註的意義與應用」影片,適當界定專案的標註方向,以建立適當的標註清單。(4)使用其他文字檔案格式建立的標註清單也需要轉檔,請見本平台之轉檔說明

3.進行標註

實際標註程序則根據您建立之標註清單,將在已上傳之資料上進行標註。相關分派標註任務、標註過程與退回,及審核標註資料等程序,請參考「(3) 人文社會AI文字標註平台使用示範」。

4.下載標註後資料

本平台標註完成資料為「.json」檔案。完成標註後,從平台下載的標註後資料「.json」檔案可參閱標註資料_網路危機訊息偵測專案_原始文件範本.json,且可透過標註轉檔小幫手轉換成Excel檔。
請注意:

(1)轉檔程式標註轉檔小幫手請在下載後,直接於您的電腦上執行本機上執行。 
(2)有關標註後資料轉換,請見本平台之轉檔說明

(四)結構化資料

您的原始文件經過以上的標註且轉檔後,就是最終的結構化資料。這些資料既可以做進一步的資料分析,或是進入AI模型開發、訓練或應用。

三、正式上路

練習後,若您已有具體資料與研究主題希望進行正式專案標註,請洽清大人文社會AI應用與發展研究中心辦公室,我們都樂意協助為您開通專屬於您的專案管理者帳號。

聯繫方式為:ai.hss.nthu@gmail.com

若有任何資料轉檔、標註設定的問題或標註平台的網頁功能問題,請聯繫系統開發團隊:infojix0516@gmail.com

四、與本系統相關的連結

(1)人文社會AI文字標註平台

(2)文字標註系統導論線上課程

(3)人文社會AI文字資料標註平台之轉檔說明.pdf 

(4)DataTag_helper.exe(標註轉檔小幫手)

(5)網路危機訊息偵測專案_標註清單範本.json

(6)網路危機訊息偵測專案_原始文件範本.zip

(7)標註資料_網路危機訊息偵測專案_原始文件範本.json

(8)離婚後親權裁判預測專案_標註清單範本.json

(9)槍砲彈藥判決量刑因子專案_標註清單範本.json