亚洲日本免费-啊轻点灬太粗太长了三男一女-麻豆av电影在线观看-日韩一级片毛片|www.grbbt.com

14款AI檢測軟件均不靠譜?手動微調ChatGPT內容便可輕易蒙混過關

在 ChatGPT 剛推出的幾周內,人們擔心學生們會使用該聊天機器人在幾秒鐘內編寫出應付作業和考試的論文。為了應對這些擔憂,許多初創公司開始制造工具,承諾可以識別文本是由人寫的還是由機器寫的。

一個尚未經過同行評審的新研究指出,應對這一挑戰的核心問題是,欺騙這些工具并通過檢測并不困難。

(來源:Pixabay)

德國柏林技術與經濟應用科學大學的媒體和計算教授黛博拉·韋伯·伍爾夫(Debora Weber Wulff)與來自多所大學的一組研究人員合作,評估了包括 Turnitin、GPT Zero 和 Compilatio 在內的 14 種檢測工具,它們都聲稱具備檢測 OpenAI ChatGPT 編寫的文本的能力。

這些工具中的大多數都是通過尋找人工智能生成文本的特征來工作的,然后計算該文本由人工智能生成的概率。但該團隊發現,所有接受測試的工具都很難找到 ChatGPT 生成的文本,因為這些文本都被人類重新排列并被轉述工具加工過。這表明,學生只需要稍微調整人工智能生成的文章,就可以通過檢測工具。

“這些工具不起作用,”韋伯·伍爾夫說,“它們無法實現它們被創造出來的目的,也不是人工智能的探測器。”

研究人員通過撰寫土木工程、計算機科學、經濟學、歷史學、語言學和文學等多個學科的本科生論文來評估這些工具。他們自己撰寫論文是為了確保網上找不到這些文本,不然可能已經被拿來訓練 ChatGPT 了。

然后,每位研究人員用波斯尼亞語、捷克語、德語、拉脫維亞語、斯洛伐克語、西班牙語或瑞典語又寫了一篇。這些文本會通過人工智能翻譯工具 DeepL 或谷歌翻譯翻譯成英語。

然后,該團隊使用 ChatGPT 生成了兩份文本,每份都經過了輕微的調整,以隱藏它是人工智能生成的。其中一組是由研究人員手動編輯的,他們重新排列句子并替換單詞,而另一組是使用名為 Quillbot 的人工智能轉述工具重寫的。最終,他們獲得了 54 份文件來測試檢測工具。

他們發現,雖然這些工具善于識別人類書寫的文本(平均準確率為 96%),但在識別人工智能生成的文本時,尤其是編輯過的文本時,它們的表現更差。

盡管這些工具識別 ChatGPT 文本的準確率為 74%,但當 ChatGPT 生成的文本經過稍微調整后,準確率降至 42%。

南澳大利亞大學構建機器學習和人工智能模型的高級講師維托米爾·科瓦諾維奇(Vitomir Kovanovi?)表示,這類研究也突顯了大學目前評估學生學業的方法是多么過時。他沒有參與該項目。

谷歌專門研究自然語言生成的高級研究科學家達芙妮·伊波利托(Daphne Ippolito)也沒有參與該項目,她提出了另一個擔憂。

她說:“如果要在教育環境中使用自動檢測系統,了解其誤報率至關重要,因為錯誤地指責學生作弊可能會對他們的學術生涯產生可怕的后果。假陰性率也很重要,因為如果太多人工智能生成的文本被識別為人類撰寫的,檢測系統就沒有用處了。”

Compilatio 是研究人員測試的工具之一。該工具的開發者稱,重要的是要記住該系統只會指出可疑段落,也就是將其歸類為潛在的剽竊或可能由人工智能生成的內容。

Compilatio 的一位發言人表示:“文本的作者(學生)是否真正學到了知識,取決于學校和評分的老師,他們可以采取額外的驗證手段,比如口頭提問、在受控的課堂環境中提出額外的問題等等。”

發言人補充道:“通過這種方式,Compilatio 工具可以成為教學方法的一部分,鼓勵學生學習好的研究、寫作和引用實踐。Compilatio 軟件是一種糾正輔助工具,而不是糾正者。”Turnitin 和 GPT Zero 沒有立即回應置評請求。

我們早就知道,用于檢測人工智能生成文本的工具并不總能按照預期的方式工作。2023 年早些時候,OpenAI 推出了一款旨在檢測 ChatGPT 生成的文本的工具,但承認它只能將 26% 的人工智能文本標記為“可能是人工智能書寫的”。它警告說,旨在檢測人工智能生成內容的工具“遠非萬無一失”。

然而,馬里蘭大學助理教授湯姆·戈爾茨坦(Tom Goldstein)表示,這些失敗并沒有阻止公司推出號稱能勝任這項工作的產品。他沒有參與這項研究。

他補充道:“其中許多工具都不是特別準確的,但也不意味著完全的災難。”他指出,Turnitin 以相當低的假陽性率成功地實現了一定程度的檢測準確性。人工智能初創公司 Hugging Face 的研究員薩沙·盧西奧尼(Sasha Luccioni)表示,盡管揭示所謂人工智能文本檢測系統缺點的研究非常重要,但將這項研究的范圍擴大到 ChatGPT 之外的人工智能工具將更有幫助。

對于科瓦諾維奇來說,試圖分辨人工智能生成內容的這個想法本身是有缺陷的。他說:“不要試圖檢測人工智能,要做出一些改變,從而讓人工智能的使用變得不再是問題。”

 

來源:DeepTech深科技

上一篇:AIGC時代,DLP怎么辦?看新晉Gartner SSE霸主如何操作

下一篇:泛微E-Cology SQL注入漏洞安全風險通告