Великий и ужасный детектор текста

Содержание

1. Вводные данные
1. 1.1. Автор эссе
2. Попытки поиска и сравнения
3. Что же делать "идейным борцам за денежные знаки"?

Вас обманули. Вам дали гораздо лучший текст. Это сгенерированный текст!

Всем привет! Сегодня будем пытаться найти наиболее надежные детекторы сгенерированного текста. Выборка, увы и ах, небольшая - 3 эссе, а массовые проверки по АПВУЗ в штиль, даже по цене в 200 руб, умноженных на несколько сотен эссе - дело достаточно дорогое.

Вводные данные

Темы эссе взяты на основе одного из заказов, по тем же требованиям, но с измененными темами. Для удобства были взяты темы:

Столяр будущего - кто он?
Какими я вижу ВУЗы в 2035 году?
Астрология - наука или искусство?

С требованиями: +- 2 стр А4, шрифт TNR14, отступ 1.5, по ширине. Сам текст эссе без форматирования представлен в файлах ниже.

Используемый запрос: Напиши очень большое детальное научное эссе с множеством примеров из реальной жизни на тему "<указанная тема>".

Автор эссе

В данной статье тестируем GPT 3.5 от OpenAI, GPT 4 пока ограничен для всех по количеству запросов на единицу времени (если веб-версия), или частично неудобный и дорогой (если через API). Остальные языковые модели или ограничены одним\несколькими языками (PaLM, Bard от Google), или обучены на явно меньшем количестве данных(YaLM от Yandex).

Системы проверки:

https://contentatscale.ai/ai-content-detector/
https://edubirdie.com/ai-content-detector/
https://copyleaks.com/ru/ai-content-detector
https://smodin.io/ru/ai-детектор-контента
https://corrector.app/ru/детектор-контента-ии/
https://platform.openai.com/ai-text-classifier
И конечно центр внимания - АП.ВУЗ (https://users.antiplagiat.ru/tariffs -> Full)

Для сравнения были выбраны или системы от законодателя мод (OpenAI, АП.ВУЗ), или же системы без freemium / подписки / покупки проверок.

Т.к. некоторые системы проверки выдают ответ вида "вероятно, текст сгенерирован" (без четких утверждений), то допускаем, что все варианты "(очень \ средне \ ..) вероятно, что текст сгенерирован" - приравниваем к "текст сгенерирован ИИ". Соответственно, (мало \ не очень \ ..) - приравниваем к "текст написан человеком".

Попытки поиска и сравнения

1. Находим стартовую оригинальность

Для сравнения берем еТХТ, глубокая проверка, слов в шингле - 3.

"ВУЗы" - 97/97% (с/без перефраза),
"Столяр" - 99/98%,
"Астрология" - 96/96%

2. Теперь очередь более специализированных инструментов:

50/50: не определено точно,
V: >50% вероятности что сгенерировал робот,
X: >50% что написал человек.

3. И конечно же берем АПВУЗ (список модулей прикреплен ниже):

"ВУЗы" - 96/2/2% (оригинальность / схожесть / цитирования, параметры округлены),
"Столяр" - 100/0/0%,
"Астрология" -98/0/2%.

"Великий и ужасный" показал, что все 3 текста - написаны человеком. О как!

Как видим, сгенерировать текст явно проще, чем показать, что он - сгенерирован. Даже казалось бы тем, кто генератор текста ранее и создал - OpenAI. На данный момент лидируют:

CopyLeaks

Который даже выделяет красным куски текста, которые могут быть сгенерированы:

Content At Scale

Аналогично №1, но еще и выдает расчеты неких параметров:

Smodin

В целом - похож на №1 и №2, также имеет ужасное ограничение в 5 проверок\день, но при этом визуализация результатов сделана более отчетливо:

Что же делать "идейным борцам за денежные знаки"?

Очевидно - жить стало лучше, жить стало веселей. Абсолютно все текстовые работы без проверки на антигенераторах могут быть что..? Правильно, сгенерированы. Сюда попадают как фабрики однотипных заданий (ТУСУР, РосДистант, частично Витте, ММУ, ..), так и большинство курсовых и других вариантов "научной" деятельности.

На данный момент не под угрозой курсовые по техническим предметам (если расчеты, то считать GPT3.5 не может. GPT4 - научили), чертежи и работы с большой графической частью. Также не могут быть сгенерированы работы по юриспруденции (НПА/ФЗ обновляются быстрее чем модели).

Но самое важное, что уже можно сказать точно - следующий сезон будет сезоном демпинга.

Причина? Скорость написания / генерации!

GPT3: около 10-15 секунд / эссе,
Человек: ориентировочно 5-10 минут / эссе.

Производительность на пустом месте в +-60 раз не увеличивается :)

Скачать файлы

столяр_будущего Скачать

вузы2035 Скачать

астрология-наука_или_искусство Скачать

Комментарии
17

HardMax71

3 Июл 2023 в 14:30

Ей, а чего .тхт с самими эссе не добавили?

tanya_stdwrk

3 Июл 2023 в 14:43

Видимо, случился баг! :(( Отправьте мне пожалуйста в личные сообщения файл, прикреплю его вручную.

cyberman

5 Июл 2023 в 09:24

Так это. Дайте плиз сами тексты почитать....

Johnny_Silver

3 Июл 2023 в 14:47

"GPT 4 пока ограничен для всех по количеству запросов на единицу времени (если веб-версия), или частично неудобный и дорогой (если через API)." - не совсем корректное утверждение.

GPT 4 пока ограничен для всех по количеству запросов на единицу времени (если веб-версия) - это верно, но это только 50%. Оставшиеся 50% в том, что возможность его юзания заключается в необходимости оплаты подписки через танцы с бубнами, а количество запросов - 25 за три часа. Т.е. ограничено это да, но о платности ничего не сказано))))

Что еще могу сказать. Те, кто генерируют тексты будут жевать хлеб разве что за счет мест обучения где вероятность что препод прочтет работу чуть более 0 =))))

Второе - касаемо собственно содержания. Использование нейросетей приведет к большему количеству бреда в работах, и увеличению юзеров подобных Варечке.

Третье. Чтобы получить хорошие результаты на нейросети, нужно уметь ее юзать в каждой сфере деятельности. Каждая сфера деятельности предполагает свою специфику использования нейросети.

Как итог, могу с уверенностью сказать за свою область - пока не изобретут нейросеть влючающей в себя все труды авторов по юриспруденции (всех веков, всех стран, а также всех видов - монографии, статьи и прочее), огромные массивы судебной практики ну хотя бы и ГАРАНТа, К+, и судакта ( уж молчу про зарубежные), можно не волноваться. Когда же такое может произойти? Не ранее чем лет через 5 так уж точно, и до такого суперкомпьютера еще додуматься надо и будет он еще и платный 100%.

Так что, толковые авторы еще в обоймы надолго.

А вот там, где работы не читают, нейросеть ничего не изменит. Просто бред копипасты заменит чуть более осмысленный бред нейросети.

Говорить что нейросеть заберет хлеб, все равно что говорить что нас вытеснит Варечка и подобные им.

Отставить панику, работаем)))

3 Июл 2023 в 14:49

Про юристов не знаю, но у менеджеров\экономистов\программистов текст читают в 90% на отвались, и большинство заказов именно такие.

3 Июл 2023 в 14:54

Кроме Синергии, ВУЗы с которыми я работаю, именно такие.

Бывает конечно, что научнику абсолютно неинтересно и он бегло смотрит работы особенно не читая, но это буквально единичные случаи.

Про ТУСУР я уж вообще не заикаюсь...

PS. В копилку нейросети - могу сказать, что это невероятно прекрасный оптимизатор времени и помощник в мелких задачах. Но не более, не более.

Lina_L

Работы по юриспруденции генерируют со страшной силой. Получается бред, однако на практике такие работы прокатывают. Я читала тексты, сгенерированные ИИ. Это очень грустно. Однако грустнее то, что преподаватели их принимают. Здесь главное - найти вуз, где преподаватели не вчитываются в текст и не пытаются его осмыслить. Во многих журналах (исключение - рецензируемые) уже стало появляться много бреда, созданного ИИ. Смешно, но немного грустно, потому что потом эти авторы пойдут практиковать или займутся наукой. Риск того, что все научные диспуты превратятся в беседу Шляпника и Мартовского зайца, все выше. И уровень законов постепенно подползет)

4 Июл 2023 в 08:31

Я извиняюсь. А где сами тексты?

4 Июл 2023 в 13:05

Вообще - отгрузил Татьяне вчера еще, сейчас - не знаю

5 Июл 2023 в 17:47

Этот баг требует для исправления чуть больше времени, чем мы ожидали. Наши программисты уже работают над этим!

esa_stav

4 Июл 2023 в 13:16

Автору - большое спасибо за статью, вот это действительно нужный и полезный материал!

4 Июл 2023 в 16:08

Вот какие статьи нужно писать! А не копипаст из интернета...

Kurban05

5 Июл 2023 в 15:17

Интересный текст, легко читается. Спасибо)

AlexBP

9 Июл 2023 в 11:18

Меня больше всего опыты с сочинениями по литературе в чате GPT порадовали. Особенно по "Муму" и "Бежин луг". Я открыл для себя русскую литературу с совершенно иной стороны. Тургенев бы до такого даже не догадался.

Jenski

9 Июл 2023 в 12:12

О дааааааааа!

Великий и ужасный детектор текста