Текст от нейросети: типичные ошибки и советы по их устранению

В конце 2022 года свету была представлена нейросеть ChatGPT, которая умеет отвечать на вопросы, генерировать новости, статьи, посты для соцсетей и другие виды материалов с уникальностью в 100%. Также ChatGPT умеет работать с готовым текстом: переводить на другой язык, редактировать, переписывать. Уже в первую неделю нейросеть посетил 1 миллион пользователей, а люди, работа которых тесно связана с текстом, задались вопросом — неужели искусственный интеллект (ИИ) может лишить их работы?

Опыт использования ChatGPT показал — машина еще несовершенна в работе с текстом, допускает фактические, логические и другие виды ошибок. Материал, сгенерированный ИИ, требует тщательной редактуры человеком. Давайте разберемся, что не так с текстом, сгенерированным нейросетью, и на что обратить внимание при его проверке.

Почему мы рассматриваем ChatGPT, а не другие нейросети? Во-первых, ChatGPT является одной из популярных и известных нейросетей на сегодняшний день. Во-вторых, у нас есть опыт работы именно с этой нейросетью. Мы использовали ChatGPT при написании простеньких статей, фрагментов текста для коммерческих страниц сайтов, анонсов и рекламы, составления планов и идей для материалов. Это позволило нам сделать собственные выводы о качестве работы нейросети с текстом.

Начнем с основ: как зарегистрироваться в Chat GPT и начать генерировать контент?

Регистрация

Сначала нужно зайти на сайт Chat GPT - OpenAI. В России он доступен только с включенным VPN.

Чтобы зарегистрироваться, можно ввести адрес электронной почты или продолжить работу со своей учетной записью Google, Microsoft или Apple. Если выбираете первый вариант, на почту придет письмо с просьбой подтвердить адрес электронной почты, а при регистрации будет необходимо ввести свое имя и дату рождения. Если продолжите работу со своей учетной записью, вводить данные не придется, а заходить в аккаунт при повторном обращении к нейросети будет удобнее.

Когда Chat GPT только запустили, обязательным шагом для регистрации было подтверждение номера телефона. Но теперь это не требуется.

После регистрации вы попадете в чат с нейросетью, где сможете с помощью вопросов генерировать контент.

Генерация контента

Чтобы начать генерировать контент, необходимо отправить запрос. Чем он понятнее, тем точнее будет ответ нейросети.

Получить максимально качественный ответ помогает промтинг. Если говорить простыми словами, промт — это техническое задание, которое пользователь отправляет ИИ. В него обычно включают:

Точное описание задачи. Укажите:
- роль нейросети (она выступает в качестве юриста или косметолога?);
- тип контента (статья, рекламный слоган или другой тип);
- тематику текста (как можно конкретнее и однозначнее опишите, о чем нужно рассказать в материале);
- для кого предназначен текст (целевая аудитория);
- обязательные условия. Нейросеть обязательно исполняет то, что заключено в [квадратных скобках].
Указание объема текста при необходимости (объемная статья в блог или короткий пост в соцсети?)
Референсы. Можете показать примеры текстов, которые хотите получить по итогу (по стилю написания, подаче или другим характеристикам).

Используйте для создания промта столько символов, сколько необходимо для описания главных условий задачи. Но не уходите в крайности. Не делайте промт слишком длинным, иначе нейросеть может запутаться и ответить не по теме. Если промт получился слишком короткий, проверьте, хорошо ли в нем описана суть задания. Иначе нейросеть не поймет, чего вы от нее хотите.

Пробуйте различные формулировки, вносите дополнительные уточнения и анализируйте, какие запросы помогают добиться наиболее качественных результатов.

Пример промта, который мы составили для ChatGPT.

Также учтите:

Chat GPT отвечает на том языке, на котором был задан вопрос. Но рекомендуют вбивать запросы на английском, так как преимущественно нейросеть обучали англоязычные специалисты, используя англоязычные источники.
Chat GPT не отвечает на вопросы, связанные с противозаконной, аморальной и опасной по мнению разработчиков деятельностью, а еще расовыми и гендерными предубеждениями. Но пользователи в интернете научились обходить фильтры безопасности ИИ, что позволяет получать опасные ответы.

ChatGPT не хочет отвечать на вопрос о планировании ограбления.

Скриншот: ChatGPT избегает противозаконных тем

Что не так с текстом от ChatGPT?

Итак, мы сгенерировали материалы. Что с ними не так? На что обратить внимание во время редактуры? Разбираем на конкретных примерах.

Орфография

С орфографией и опечатками у ИИ проблемы возникают редко. И это отмечают как один из признаков того, что текст написан нейросетью.

Но если изначально отправить вопрос с ошибкой, то есть риск, что при написании материала нейросеть повторит её.

Мы отправили запрос с ошибкой в слове "иллюстрация". В первом предложении нейросеть повторила нашу ошибку, но в следующих слово написано правильно.

Скриншот: ChatGPT повторяет ошибки пользователя

Совет: не допускайте ошибок при формировании запроса, а готовый текст проверяйте на орфографию. Даже если вы просто переместите материал от нейросети в гуглодок, он подчеркнет явные ошибки. Также проверить текст на наличие орфографических и пунктуационных ошибок можно в текст.ру, орфограммке или других онлайн-сервисах.

Знаки препинания

Мы выделили ошибки, которые наблюдали чаще всего:

Нейросеть ставит двоеточие после первого слова или фразы в списках. При этом после двоеточия не поясняет фразу, а дублирует ее. Кстати, после двоеточия нейросеть почему-то пишет слова с большой буквы.
Ставит запятую перед предлогом “благодаря”, когда этого делать не нужно.
Использует дефис вместо тире.
Обособляет слова и обороты, где это не требуется. Например, выделяет конструкцию “В зависимости от” в начале предложения, хотя по правилам этого делать не следует.
Ставит запятые в местах, где предполагается интонационное выделение в тексте. Например, “В будущем, совмещение новых технологий и усилий общества в направлении устойчивости будет ключевым фактором для решения проблемы пластикового загрязнения”.
Часто использует конструкцию “такие как” вместо двоеточия при перечислении однородных членов предложения. Например, “Соберите все необходимые документы, такие как заграничный паспорт, фотографии, приглашение (если необходимо), подтверждение бронирования и т.д.”

Мы попросили перечислить особенности и характеристики имитации бруса (это такой пиломатериал). Публикуем фрагмент статьи, в котором идет перечисление.

На примере видно, что ChatGPT ставит двоеточие после первой фразы, которую потом не поясняет, а дублирует. Слово после двоеточия идет с заглавной буквы.

Совет: проверяйте текст на пунктуацию. Если вы в ней не сильны, воспользуйтесь уже упоминаемыми нами онлайн-сервисами по типу Текст.ру или орфограммка (второй сервис работает по платной подписке). Они подчеркивают места, в которых, по их мнению, могут быть ошибки, и в примечаниях поясняют свою точку зрения.

Шаблонные формулировки и повторяющиеся конструкции

Текст от нейросети содержит конструкции и фразы, которые повторяются от предложения к предложению и построены по одному и тому же принципу.

Если вы генерируете несколько материалов на похожую тематику, можете заметить, что все они будут похожи по структуре друг на друга.

Водность

В тексте от нейросети встречаются слова и фразы, которые не несут смысловой нагрузки для читателей: как правило, конечно, может быть, несомненно и другие.

Совет: проверьте текст на водность (это можно сделать в онлайн-сервисах по типу Главред β или Текст.ру) и уберите ненужные конструкции.

По нашим наблюдениям, средний балл чистоты текста по Главреду варьируется от 7,5 до 8,5 баллов. На приведённом примере сервис подчеркнул конструкции, которые можно убрать без вреда для текста или заменить на конкретные факты.

Переспам

Проблемы у нейросети не только с водой, но и переспамом — в текстах встречается слишком частое употребление одних и тех же слов. Если вы попросили написать материал про деревянную обрешетку, то выражение “деревянная обрешетка” может употребляться практически в каждом предложении материала.

Совет: переспам не только мешает читателю воспринимать информацию, но и негативно сказывается на поисковой выдаче. Например, у Яндекса есть алгоритм Баден-Баден, который определяет переоптимизированные страницы и ухудшает их позиции в результатах поиска. Поэтому советуем подчищать текст от бессмысленных повторов. Процент заспамленности можно проверить в Текст.ру.

По нашим наблюдениям, средний процент заспамленности в материалах ChatGPT варьируется от 50% до 60%.

Мы попросили написать нейросеть материал на 4 000 символов о том, как сделать скамью для бани из осины, и получили текст, процент заспамленности которого равняется 70%. В статье 40 раз употребляется слово "скамья", 26 — "бани" и 16 — "осины". Такой текст следует внимательно прочитать и подчистить.

Недостоверная информация

Говорит ли Chat GPT правду? На этот вопрос однозначно ответили специалисты OpenAI — в убедительных ответах нейросети может содержаться недостоверная информация. Бывает, что Chat GPT ссылается на несуществующие источники или выдумывает цитаты.

Ещё знания нейросети в бесплатной версии не являются актуальными, поэтому она не знает о большинстве текущих событиях и тенденциях.

Ответ ChatGPT на вопрос о событии, которое произошло после того, как было проведено обучение нейросети.

Знания ChatGPT основаны на данных, на которых он обучался, и имеют крайнюю дату — январь 2022 года. Именно поэтому нейросеть не может ответить на вопросы о событиях, которые произошли после.

В мае 2023 года OpenAI объявила, а ближе к середине октября запустила функцию, которая позволяет включить просмотр веб-страниц и получать данные из Интернета в режиме реального времени. Эта функция использует поисковую систему Bing, поскольку OpenAI и Microsoft являются технологическими партнерами. Но доступно нововведение для пользователей с платной подпиской.

Актуальные на март 2024 года условия тарифов ChatGPT. Бесплатный план предлагает минимальное количество возможностей — генерацию сообщений.

Актуальные на март 2024 года тарифы chatgpt

Совет: проверяйте материалы от ChatGPT на фактические ошибки, просматривайте источники, на которые она ссылается (есть вероятность, что их и вовсе не существует).

Раскрытие темы

ИИ описывает общие принципы и не углубляется в детали. Вот пример.

Мы спросили ChatGPT, как выбирать аппарат искусственной вентиляции легких (ИВЛ). Он дал пару общих советов типа “Выберите аппарат, который соответствует вашему бюджету” или “Выберите аппарат, с которым медицинский персонал хорошо знаком и обучен”. Но это итак понятно. А вот более конкретные характеристики, которые действительно было бы полезно узнать, ChatGPT уточнять не стал. Например, по одному из пунктов выдал “Некоторые аппараты ИВЛ могут иметь специализированные режимы работы для определенных категорий пациентов, таких как дети, пожилые, пациенты с ожогами и др.” вместо того, чтобы рассказать о пяти группах аппаратов ИВЛ, каждая из которых предназначена для определенного возраста.

Из материала ChatGPT можно узнать, на какие характеристики в общем и целом обратить внимание при выборе аппаратов ИВЛ. Но чтобы получить более конкретный ответ на вопрос, будет разумнее почитать материалы на релевантных сайтах (сайтах производителей или медицинских журналов).

Скриншот: ChatGPT поверхностно раскрывает тему

Совет: проверьте, насколько хорошо раскрыта тема, замените расплывчатые формулировки от ChatGPT конкретными фактами. Еще совет: перед генерацией текста выделите время на ресерч по теме, чтобы понимать, что из себя должен представлять материал, какие вопросы должны быть раскрыты и как.

Подводим итоги

Если вы используете нейросеть для работы с текстом, рекомендуем составить ТЗ так, как вы бы его составили незнакомому с темой проекта сотруднику, а еще не выпускать материалы без редактуры. Обязательно проверяйте его на орфографические и смысловые ошибки, да и вообще просматривайте, раскрыта ли тема.

Что не так с текстом, сгенерированным нейросетью?