完美体育·(中国)官方网站-APP下载

    1. 湖南翱云网络科技有限公司

      好家装,没那么贵,您信赖的家装品牌

      Good decoration, not so expensive A trusted decoration brand

      24小时咨询热线
      13348712175

      公司资讯

      再不能用ChatGPT写作业了!新算法给AI文本加水印置信度9999%

      发布时间:2023-03-02 浏览量:25 来源: 本站 作者: QGNgxVK8bT7QDE6c9jLf

        再不能用ChatGPT写作业了!新算法给AI文本加水印置信度9999%要知道,最近一段时间,ChatGPT先是成为美国高中生的写作业利器☮⌘☏☂©✍,后面帮专业媒体写稿子,引发巨大恐慌。如Nature、纽约教育部等,都针对ChatGPT发布禁令。

        这是一种现在被常用于大规模语言模型(LLM)中的方法♥☯★⌘♂✈,能让AI生成的文本带有❤☼“特殊标记”。即把信号嵌入到生成的文本中,让算法能从一小段token中检测出来。

        最近,OpenAI方面也表示✉☁Σ♀°,考虑在ChatGPT中添加水印,以降低模型被滥用带来的负面影响。

        这篇最新论文的作者,就想验证下这个想法到底靠不靠谱。他们通过给LLM中嵌入水印™©,然后再进行检测。其中水印的嵌入不会影响文本生成质量❥♛★♛☠♪。

        具体来说,大规模语言模型每次生成一个token,每个token将从包含大约5万个词汇的词汇表中进行选择☯✈™ϟ。

        在新token生成之前,该方基于最近已生成的token为随机数生成器(RNG)提供€✎❥♂©☁“种子”,以此来压一个水印€✌。

        举例来说,如果在“美丽的¿°✉”后面生成词汇☿웃♥,水印算将“花”列入白名单⌛¿♚,将“兰花”列入黑名单。

        如果一共有生成了N个token,所有的token都使用了白名单词汇,那么这段文字只有2的N次方分之一概率是人类写的。

        比如模型输出了“SpongeBob Square”,下一个单词一定会是“Pants”吧?但是Pants会被标记到黑名单里¢¢☁☤,即认为是只有人才会写的词。

        (注✄❅♀ϟ★¡:SpongeBob SquarePants是《海绵宝宝》动画片的英文,可理解为一个专有名词)

        这种情况会严重影响算法的准确性℃☮✞♚☣½,因此作者将其定义为低熵token,因为模型几乎不会有更好的选择✍▲™✘。

        对应来看,也会有高熵token☼☁,比如▼유¿“海绵宝宝感觉____℉☼Σღ”这个句式里,能填入的词汇太多了。

        对于这一情况,作者选择针对高熵token制定更强的规则,同时保留低熵token,确保水印质量更好✫☒♀。

        与此同时,他们还添加了波束搜索(Beam search),允许LLM能够排布一整个token序列,以避免黑名单词汇。

        因为在这段文字中,包含36个token▲♛❥☤。如果是人类写的,那么文本中应该包含9±2.6个白名单词汇(白名单词汇的概率约为25%)✄☯。

        需要注意的是,如果想要水印正常发挥作用Ⓐ☭£Ⓐ웃,并不受到攻击♥¿☂,就必须对文本进行一些标准化处理,并且需要检测某些类型的对抗性提示。

        如果我在AI生成的文字基础上,修改几个词,还能被查出来吗?那在替换成近义词后,检测准确率会下降多少ϟ☏☁✡?毕竟大家往往不会一字不改、直接用AI生成的内容。

        对于一段自带水印的文字,至少得修改40%-75%的token,才可能成功去除水印유☣。(如果用其他程序修改内容的话)☤❥⌚✡☤,会发生同义词攻击£☠∞,导致生成内容的质量很低✘❥。

        简而言之,想要通过换近义词来消除水印,得大篇幅修改,而且若不是人亲自手动修改的话,效果会很拉胯。

        对于专门设计过的低熵token序列€ღ☣☮™❣,应该能检测出水印。但是∞☏유▼⌘☭,长度和检测率之间(存在一些矛盾),它们的优先级应该如何权衡?

        根据设定,使用波束搜索时▲⌘✍❥➳,绝大多数(通常是90%)的token在白名单上,即使是低熵token™¢⌛♚℉,也会被列入白名单。所以,至少得修改一半以上的token☂❥¢✞☂,才能删除水印,而这需要一个超级强大的LLM模型才行,一般人很难接触到。

        比如,检测水印的z统计量⌘✪,只取决于白名单大小参数γ和生成白名单的哈希函数,和其他不少重要的参数并没有什么相关性。

        这就让他人可以在下游水印检测器上做手脚,可以改变水印采样算法,重新部署水印,最终让原本生成的水印失效。

        之前就有人搞出了一个检测ChatGPT的网站,名曰GPTZero⌚▼♂✘,只需要把相应的内容粘进去,几秒内就能分析出结果。

      分享到:

      湖南翱云网络科技有限公司

      完美体育,完美体育首页,完美体育登录,完美体育APP下载

      24小时咨询热线
      13348712175
      咨询热线
      13348712175
      在线客服
      二维码
      扫一扫