學術文本 AI 特徵 · 啟發式檢測台

Turnitin AIW-2 / VeriGuide AWD 風格架構

此分頁採用 滑動窗口逐句分析——將文本切為連續句子組成的窗口（5–10 句），逐句滑動並獨立評分；每句的最終分數為包含該句之所有窗口分數的平均。文件分數為被分類為 AI 生成的句子比例。

仿 Turnitin 雙類別輸出：AI 生成（高詞彙訊號 + 高結構訊號） · AI 改寫（套語已被改寫但句法骨架仍存）。

0%

合格文本中疑似 AI 生成 / 改寫

AI 生成 0%

AI 改寫 0%

混合可疑 0%

逐句熱力圖

原文標記檢視

          ⚛ 此分頁需先執行 Perplexity 分析。

          請於上方面板按「啟用模型」載入 Qwen2.5-0.5B（首次約 250 MB，瀏覽器快取後即時可用），
          再按「對當前文本執行 Perplexity 分析」。

          完成後本分頁將顯示逐句 PPL 熱力圖、原文標色、與基於 PPL 的 AI 比例。

          支援整篇 5000+ 字長文：自動分段（每段 ≤950 tokens）逐 chunk 處理，全文覆蓋。

觸發詞彙清單

結構訊號

研究方法說明 v3 · TURNITIN/VERIGUIDE 架構

架構聲明：本工具仿真 Turnitin AIW-2 / VeriGuide AWD 之架構層（滑動窗口、雙類別輸出、20% 抑制閾值），但不複製其專有 transformer 模型。窗口分數來自我們透明可審查的啟發式偵測器，而非經對抗訓練的深度學習分類器。研究者可藉此理解架構決策對結果的影響，但不應將分數等同於商業系統的真實輸出。

v3.1 密度修正：原版本中模板、tricolons、句首重複、詞彙重複採絕對計數加權，導致長篇人類文本（如 300+ 句的論文）會因為長度本身而撞滿這些訊號的分數上限，造成系統性假陽性。v3.1 將上述四個訊號全部改為「每 100 句密度」基準，與滑動窗口分頁的判斷邏輯一致。例：7 個 tricolons 在 5 句短文是強烈訊號（140/100sent），但在 317 句長文中只是 2.2/100sent，幾乎可忽略。

A. 滑動窗口分析（Turnitin AIW-2 架構） Turnitin 公開白皮書（2024 年 8 月）描述其使用 5–10 句的 segmented window approach，逐句滑動，每句因此會在多個窗口的不同上下文中被評分；最終句級分數為包含該句之所有窗口分數的平均。本工具實作相同架構，窗口大小依文本長度自動調整為 3–6 句。

B. 雙類別輸出（AIW-2 vs AIR-1） Turnitin 同時運行兩個模型：AIW-2 偵測直接 AI 生成（cyan 標記），AIR-1 偵測 AI 改寫文本（purple 標記）。我們以啟發式近似： AI 生成＝高詞彙訊號＋高結構訊號（套語密集且句法 AI 化）； AI 改寫＝低詞彙訊號＋高結構訊號（改寫工具刪除了 "delve into"、"至關重要" 等套語，但無法修復句法骨架，如「不僅 X 更 Y」、tricolons、句長均勻性等）。

C. 20% 抑制閾值 Turnitin 自 2024 年 7 月起，當文件總體 AI 比例低於 20% 時不顯示確切分數，僅以 *% 標示，以降低低分區假陽性率（其文件級偽陽性率公開為 < 1% 在 ≥ 20% 區間）。本工具沿用此慣例。

D. 多語支援（VeriGuide AWD 設計） VeriGuide 由 CUHK 開發，聲稱對英文、繁體中文、簡體中文皆有 90%+ 準確率。本工具的詞庫亦同時涵蓋繁簡英三語，且 regex 模板獨立處理中英文句法結構。

E. 啟發式特徵層詞彙庫約 250 條，分四類：高度 AI 特徵詞、中度 AI 傾向詞、機械轉折詞、過度模糊語。加上 AI 句式模板（regex）、三段式列舉、句長變異度（CV）、句首重複、英文 em-dash 過用、詞彙重複指標。所有訊號透過加權函數聚合，並可由靈敏度倍率（0.6×–2.0×）即時調整。

F. 已知局限 ① 真實 Turnitin/VeriGuide 模型基於數百萬篇文本對抗訓練，啟發式不可能達到相同精度； ② Liang et al. (2024) 證明高敏度檢測對非英語母語者有系統性偏見，本工具同樣面臨； ③ Sadasivan et al. (2023) 證明所有檢測器皆可被改寫繞過——這是檢測技術的根本限制； ④ 短文本（< 200 字）下窗口分析不穩定，建議至少 10 句以上。

G. Perplexity 偵測（GPTZero 核心方法）於本機載入 Qwen2.5-0.5B（4-bit 量化、約 250 MB），對文本逐 token 計算 −log p(xᵢ | x<ᵢ)（surprisal），得到 perplexity = exp(平均 surprisal)。理論基礎：LLM 訓練目標就是最大化下一 token 機率，故其輸出在另一 LLM 視角下亦呈現系統性低 perplexity；人類寫作則含有更多「LLM 不會選的字詞」，整體 PPL 偏高且段間變異（segment-level burstiness）較大。本工具同時報告平均 PPL、surprisal CV、段間 PPL CV 三個指標。 同模型偏差：若待測文本恰為 Qwen 系列生成，PPL 會偏低於跨模型情境；建議報告時註明使用何種偵測模型，以便可重現性。

Perplexity 閾值校準參考（Qwen2.5-0.5B 上的觀察值）：
· < 12：強烈疑似 AI（與訓練分布高度相似）
· 12–25：疑似 AI 生成或 AI 改寫
· 25–50：介於 AI 與人類之間
· > 50：較像人類撰寫
這些閾值會因領域、語言、文本主題而變動，建議在你的研究資料集上自行校準。

REFERENCES:
· Turnitin (2024). "AI writing detection model architecture and testing protocol" White Paper.
· VeriGuide / CUHK CSE Department. "AI Writing Detector (AWD)" — keep.edu.hk/veriguide.
· Tian (2023) GPTZero · Mitchell et al. (2023) DetectGPT.
· Sadasivan et al. (2023) Can AI-Generated Text be Reliably Detected? arXiv:2303.11156.
· Liang et al. (2024) GPT detectors are biased against non-native English writers. Patterns 5(7).
· Walters (2023) The Effectiveness of Software Designed to Detect AI-Generated Writing. Open Information Science.
· Qwen Team (2024) Qwen2.5 Technical Report.

學術文本 AI 特徵 · 啟發式檢測台

§ 01 文本輸入

逐句熱力圖

原文標記檢視

逐句 PPL 熱力圖

原文逐句標記（依 PPL 著色）

觸發詞彙清單

結構訊號

研究方法說明 v3 · TURNITIN/VERIGUIDE 架構