§ 01 文本輸入
此分頁採用 滑動窗口逐句分析——將文本切為連續句子組成的窗口(5–10 句),逐句滑動並獨立評分;每句的最終分數為包含該句之所有窗口分數的平均。文件分數為被分類為 AI 生成的句子比例。
仿 Turnitin 雙類別輸出:AI 生成(高詞彙訊號 + 高結構訊號) · AI 改寫(套語已被改寫但句法骨架仍存)。
逐句熱力圖
原文標記檢視
請於上方面板按「啟用模型」載入 Qwen2.5-0.5B(首次約 250 MB,瀏覽器快取後即時可用), 再按「對當前文本執行 Perplexity 分析」。
完成後本分頁將顯示逐句 PPL 熱力圖、原文標色、與基於 PPL 的 AI 比例。
支援整篇 5000+ 字長文:自動分段(每段 ≤950 tokens)逐 chunk 處理,全文覆蓋。
每句的 perplexity 由其 tokens 的負對數機率 surprisals 平均後 exp 得出。 低 PPL 句(與訓練分布高度相似)標記為 AI 傾向; 高 PPL 句(含 LLM 不會選的字詞)標記為人類傾向。
AI 高度疑似 PPL < 20 · AI 可能 PPL 20–40 · 偏人類 PPL 40–80 · 人類傾向 PPL > 80
逐句 PPL 熱力圖
原文逐句標記(依 PPL 著色)
觸發詞彙清單
結構訊號
研究方法說明 v3 · TURNITIN/VERIGUIDE 架構
架構聲明:本工具仿真 Turnitin AIW-2 / VeriGuide AWD 之架構層(滑動窗口、雙類別輸出、20% 抑制閾值),但不複製其專有 transformer 模型。窗口分數來自我們透明可審查的啟發式偵測器,而非經對抗訓練的深度學習分類器。研究者可藉此理解架構決策對結果的影響,但不應將分數等同於商業系統的真實輸出。
v3.1 密度修正:原版本中模板、tricolons、句首重複、詞彙重複採絕對計數加權,導致長篇人類文本(如 300+ 句的論文)會因為長度本身而撞滿這些訊號的分數上限,造成系統性假陽性。v3.1 將上述四個訊號全部改為「每 100 句密度」基準,與滑動窗口分頁的判斷邏輯一致。例:7 個 tricolons 在 5 句短文是強烈訊號(140/100sent),但在 317 句長文中只是 2.2/100sent,幾乎可忽略。
A. 滑動窗口分析(Turnitin AIW-2 架構) Turnitin 公開白皮書(2024 年 8 月)描述其使用 5–10 句的 segmented window approach,逐句滑動,每句因此會在多個窗口的不同上下文中被評分;最終句級分數為包含該句之所有窗口分數的平均。本工具實作相同架構,窗口大小依文本長度自動調整為 3–6 句。
B. 雙類別輸出(AIW-2 vs AIR-1) Turnitin 同時運行兩個模型:AIW-2 偵測直接 AI 生成(cyan 標記),AIR-1 偵測 AI 改寫文本(purple 標記)。我們以啟發式近似: AI 生成=高詞彙訊號+高結構訊號(套語密集且句法 AI 化); AI 改寫=低詞彙訊號+高結構訊號(改寫工具刪除了 "delve into"、"至關重要" 等套語,但無法修復句法骨架,如「不僅 X 更 Y」、tricolons、句長均勻性等)。
C. 20% 抑制閾值 Turnitin 自 2024 年 7 月起,當文件總體 AI 比例低於 20% 時不顯示確切分數,僅以 *% 標示,以降低低分區假陽性率(其文件級偽陽性率公開為 < 1% 在 ≥ 20% 區間)。本工具沿用此慣例。
D. 多語支援(VeriGuide AWD 設計) VeriGuide 由 CUHK 開發,聲稱對英文、繁體中文、簡體中文皆有 90%+ 準確率。本工具的詞庫亦同時涵蓋繁簡英三語,且 regex 模板獨立處理中英文句法結構。
E. 啟發式特徵層 詞彙庫約 250 條,分四類:高度 AI 特徵詞、中度 AI 傾向詞、機械轉折詞、過度模糊語。 加上 AI 句式模板(regex)、三段式列舉、句長變異度(CV)、句首重複、英文 em-dash 過用、詞彙重複指標。 所有訊號透過加權函數聚合,並可由靈敏度倍率(0.6×–2.0×)即時調整。
F. 已知局限 ① 真實 Turnitin/VeriGuide 模型基於數百萬篇文本對抗訓練,啟發式不可能達到相同精度; ② Liang et al. (2024) 證明高敏度檢測對非英語母語者有系統性偏見,本工具同樣面臨; ③ Sadasivan et al. (2023) 證明所有檢測器皆可被改寫繞過——這是檢測技術的根本限制; ④ 短文本(< 200 字)下窗口分析不穩定,建議至少 10 句以上。
G. Perplexity 偵測(GPTZero 核心方法) 於本機載入 Qwen2.5-0.5B(4-bit 量化、約 250 MB),對文本逐 token 計算 −log p(xᵢ | x<ᵢ)(surprisal),得到 perplexity = exp(平均 surprisal)。 理論基礎:LLM 訓練目標就是最大化下一 token 機率,故其輸出在另一 LLM 視角下亦呈現 系統性低 perplexity;人類寫作則含有更多「LLM 不會選的字詞」,整體 PPL 偏高且 段間變異(segment-level burstiness)較大。本工具同時報告平均 PPL、surprisal CV、 段間 PPL CV 三個指標。 同模型偏差:若待測文本恰為 Qwen 系列生成,PPL 會偏低於跨模型情境; 建議報告時註明使用何種偵測模型,以便可重現性。
Perplexity 閾值校準參考(Qwen2.5-0.5B 上的觀察值):
· < 12:強烈疑似 AI(與訓練分布高度相似)
· 12–25:疑似 AI 生成或 AI 改寫
· 25–50:介於 AI 與人類之間
· > 50:較像人類撰寫
這些閾值會因領域、語言、文本主題而變動,建議在你的研究資料集上自行校準。
REFERENCES:
· Turnitin (2024). "AI writing detection model architecture and testing protocol" White Paper.
· VeriGuide / CUHK CSE Department. "AI Writing Detector (AWD)" — keep.edu.hk/veriguide.
· Tian (2023) GPTZero · Mitchell et al. (2023) DetectGPT.
· Sadasivan et al. (2023) Can AI-Generated Text be Reliably Detected? arXiv:2303.11156.
· Liang et al. (2024) GPT detectors are biased against non-native English writers. Patterns 5(7).
· Walters (2023) The Effectiveness of Software Designed to Detect AI-Generated Writing. Open Information Science.
· Qwen Team (2024) Qwen2.5 Technical Report.