Помощь

 

AntiPlagiarism.NET - программа предназначена для поиска в сети Интернет неуникальных фрагментов проверяемого текста, определения его уникальности, подсвечивании найденных неуникальных фрагментов как в исходном документе, так и в web-странице, на которой были обнаружены совпадения, точного определения процента совпадений с каждым проверяемым web-документом.

 

Интерфейс
Настройки программы
Пакетная проверка / Проверка сайта / Локальная проверка

 

Интерфейс


Меню

Содержит все необходимые команды для настройки и работы приложения.

Панель задач

Попросту дублируются наиболее частые команды из меню.

Редактор

Редактор состоит из окна, в который можно вставлять текст для проверки, и в котором можно его редактировать.

В качестве источников проверяемого текста можно использовать:

  • Текст из буфера обмена: скопированный ранее текст вставляется в редактор командой Правка / Вставить или используя комбинацию горячих клавиш
  • Текстовый, вордовский или pdf файл (*.txt, *.doc, *.docx, *.pdf, *.odt) – текст из файла вставляется в редактор командой Файл / Открыть файл.
  • Web-документ из сети Интернет – в поле 'Адрес' вставляется url страницы, и нажимается или находящаяся справа кнопка 'Загрузить html-код страницы' для закачки в окно редактора исходного кода документа. При этом по завершении загрузки редактор автоматически переключается в режим `Просмотр в браузере`.

Редактор имеет два режима:

  • 'Просмотр в браузере' - относится к тексту как к html-документу, отображая его как в браузере. Не позволяет редактировать текст.
  • 'Редактирование текста' - позволяет редактировать текст.

Помимо этого Редактор также может отображать в правой части в отдельном окне канонизированный текст. Канонизированный текст - это исходный текст, из которого удалены все лишние пробельные символы, знаки пунктуации, html-разметка, различные несущественные слова. В сравнении двух документов используются именно их канонизированные варианты. По умолчанию он не показывается, но при желании можно включить его отображение через меню (Вид / Показать канон. текст).

После проверки найденные фрагменты исходного текста подсвечиваются в редакторе различными цветами (соответствие цвета совпадения с источником показывается в Журнале). В случае если какой-либо фрагмент текста находится в различных источниках, то такой фрагмент подсвечивается желтым цветом.

Страница

Страница представляет собой окно встроенного браузера.

При проверке в Журнал будут записываться сообщения вида "найдено X% совпадений по адресу YYY".

При нажатии на ссылку YYY на вкладке Страница отобразится документ по этому адресу, в котором желтым маркером будут отмечены совпавшие фрагменты из исходного проверяемого текста.

Журнал

В журнал логируются результаты проверки в режиме реального времени, помимо этого сюда записываются различные диагностические сообщения, а также сообщения об ошибках.

По умолчанию подробный логинг в журнал отключен, но при желании его можно включить в настройках программы (Операции / Настройки / Отчет / Вывод в журнал подробной информации о ходе выполнении проверки).

Настройки программы


Общие

Принцип работы проверки уникальности текста:

  • составляются выборки слов из проверяемого документа, которые будут использоваться в качестве текста запроса к поисковым системам (размер выборки и их число задаются в 'Настройки / Общие / Основные параметры / Размер выборки в словах' и 'Настройки / Общие / Основные параметры / Число выборок').
  • осуществляются сами эти запросы (поисковые системы берутся по очереди, какие именно - определяется в 'Настройки / Общие / Основные параметры / Поисковые системы'). Поддерживаемые поисковики: Google, Yandex, Rambler, Bing, Qip, Nigma, Yahoo.
  • анализируются ответы поисковых систем, из которых берутся ссылки на web-документы; берутся самые релевантные с точки зрения поисковой системы, то есть самые верхние в выдаче (количество анализируемых ссылок из каждого ответа поисковой системы задается в 'Настройки / Общие / Основные параметры / Число ссылок на выборку').
  • закачиваются страницы по этим ссылкам.
  • определяется процент совпадений проверяемого текста и каждой скачанной страницы с помощью метода обнаружения копий или метода обнаружения рерайта (метод обнаружения задается в 'Настройки / Общие / Определение уникальности'.
  • определяется конечный суммарный процент совпадений проверяемого текста со всеми скачанными страницами.

Основные параметры - группа параметров задает ключевые настройки в определении уникальности текста (что они означают описано в самом начале).

Метод обнаружения копий, Метод обнаружения рерайта - задают алгоритм сравнения исходного текста с каждой из закачанных страниц в процессе проверке.

Число слов в шингле - задает размер шингла в методе обнаружения копий (метод шинглов).

'Установить общие настройки' - содержит ряд предустановленных наборов параметров из Основные параметры : По умолчанию, Экспресс, Глубокие. Сохраненные содержит последние сохраненные пользователем набор параметров из Основные параметры.

Операция Проверить уникальность в качестве настроек из Основные параметры использует набор параметров из Сохраненные.

Игнорировать цитаты - игнорировать ли цитаты в исходном проверяемом тексте. Цитатой считается текст, обрамленный либо двойными кавычками (""), либо кавычками-елочками («»). (используется только в методе обнаружения копий).

Проверка на дубли в исходном тексте - при выборе данной опции в начале проверки исходный текст разбивается на небольшие блоки, которые сравниваются друг с другом (что позволяет, например, найти скопированные абзацы в проверяемом документе).

Определение уникальности / Порог уникальности (%) - задает максимально допустимый процент совпадения исходного проверяемого текста с каждой из закачанных страниц в процессе проверке. В случае если этот порог превышен – операция проверки автоматически завершается. По умолчанию равен 50%.

Сеть

В случае отсутствия прямого доступа к Интернет эта вкладка позволяет задать прокси.

Примечание: следует учесть, что в этом случае будет невозможно использовать список прокси как средство защиты от автопоиска (Настройки / Другие/ Защита от автопоиска / Использовать список прокси)

Отчет

Автосохранение - задает количество последних отчетов, которые будут автоматически сохраняться в папке Документы/Inet-trade/Autosave в домашней папке пользователя после каждой операции проверки. Именоваться отчеты будут в соответствии со временем окончания соответствующей проверки. Быстрый доступ к ним из программы возможен через меню Файл / Автосохранения.

История - задает количество последних операций поиска, которые будут сохраняться. Это влияет на доступность результатов той или иной операции проверки из Журнала.

Журнал - позволяет в журнале включить подробное логирование событий в процессе проверки текста на уникальность. По умолчанию отключено.

Пакетная проверка - позволяет указать директорию, куда сохранять отчеты для каждого проверяемого документа/веб-страницы в процессе пакетной проверки / проверки сайта.

Примечание: это имеет смысл для больших пакетов, когда отчет в журнале может получиться настолько большим, что будет вызывать торможение или даже зависание программы.

Редактор

Шрифт - позволяет задать шрифт (в том числе его размер) в редакторе.

Скачка

Использовать альтернативную схему скачки - позволяет использовать другой внутренний механизм закачки страниц в процессе проверки.

Примечание: используйте эту схему, если имеются какие-то проблемы при скачивании страниц во время работы программы (например, в случае возникновения большого количества ошибок "Не удалось загрузить страницу..."). Эта же схема используется и при формировании списка страниц сайта из 'Проверка сайта'.

Задействовать экономный расход памяти - включает режим экономного использования оперативной памяти.

Примечание: используйте экономный расход памяти при появлениии ошибок о ее нехватке (как правило при проверке больших текстов). Но в этом случае будет невозможно посмотреть на подсветку найденных совпадений на web-документах, с которыми сравнивался исходный текст.

Исключения

Задает набор url-адресов / доменов, которые будут игнорироваться при проверке текста на уникальность.

Игнорировать страницы с того же домена, что и проверяемый сайт или html-страница - влияет на случай когда проверяемый документ является web-документом из интернета; например, текст для проверки был закачен в Редактор с помощью поля Адрес (при этом он не изменялся в редакторе!) или в случае проверки страниц командой 'Проверка сайта'. Параметр 'Уровень домена' определяет домен самого высокого уровня в адресе проверямой страницы/сайта, поддомены которого (и он сам) будут игнорироваться при проверке. По умолчанию равен 2, то есть при проверке сайта, скажем, http://www.site.com при проверке будут игнорироваться страницы вида http://site.com/page.html, http://www.site.com/page.html, http://sub3.site.com/page.html, http://sub4.sub3.site.com/page.html, http://sub5.sub4.sub3.site.com/page.html и.т.д.

Игнорировать при проверке адреса из файла - позволяет задать конкретные адреса, которые будут игнорироваться при проверке. Обычный текстовый файл (.txt) должен содержать набор адресов, каждый на отдельной строке.

Пример содержания такого файла:

http://www.ignoreurl1.com
http://www.ignoreurl2.com/index.html
http://www.ignoreurl2.ru/page3.html

Игнорировать при проверке домены из файла - позволяет задать целые домены, которые будут игнорироваться при проверке. Обычный текстовый файл (.txt) должен содержать набор доменов, каждый на отдельной строке.

Пример содержания такого файла:

http://subdomen1.domen1.com
domen2.org
http://domen3.ru/

Обновление

Обновление - позволяет проверять наличие новой версии программы при каждом ее запуске. В случае наличия новой версии будет выдано приглашение обновить программу. При обновлении настройки пользователя не теряются, а берутся из предыдущей (то есть текущей) версии.

Другие

Настройки соединения

  • Минимальный интервал между смежными запросами к поисковой системе - задает время в секундах, не дает осуществлять запросы к одной и той же поисковой системе за очень короткий период времени.
  • Максимальное число попыток совершения запросов к поисковым системам - дает возможность повторить один и тот же запрос к поисковой системе в случае предыдущих неудачных попыток, что положительно сказывается на качестве проверки.
  • Таймаут закачки каждой страницы - задает максимальное время в секундах, которое отводится на закачку каждого web-документа. Если за этот промежуток времени не удалось закачать страницу, то она отбрасывается (в режиме подробного логирования в Журнал пишутся сообщения о превышении таймаута в этом случае).

    Примечание: В случае плохого интернет-соединения значение этого параметра возможно придется увеличить.

  • Максимальное количество одновременно скачиваемых страниц

    Примечание: В случае плохого интернет-соединения значение этого параметра возможно придется уменьшить.

Защита от автопоиска

  • Показывать капчу

    Имеет смысл, только если не используется сервис антикапчи. Если это так, то когда поисковая система требует капчу, операция проверки текста на уникальность приостанавливается, и программа дает возможность пользователю ввести требуюмую капчу. Если “Показывать капчу” отключено, то программа не будет просить вводить ее и пытаться заново построить тот же самый запрос к той же поисковой системе (в этом случае качество проверки может значительно ухудшиться, вместо этого лучше отключите ненужные поисковые системы).

  • Использовать сервис антикапчи

    Имеет смысл, только если не используется список прокси. Если это так, то когда поисковая система требует капчу, операция проверки текста на уникальность приостанавливается, и программа отсылает эту капчу сервису распознавания капч. По завершении распознавания программа продолжит работу.

    Примечание: в режиме подробного логирования в Журнал будет записываться как сама капча (картинкой), так и результат ее распознавания.

    Примечание: параметр Ключ можно узнать в своем личном кабинете на сайте используемого сервиса антикапчи (например, http://antigate.com). Разумеется сначала нужно там зарегистрироваться и пополнить баланс.

  • Использовать список прокси

    Позволяет задать список прокси, через которые будут строиться запросы к поисковым системам. Параметр Максимальное число попыток совершения запросов к поисковым системам позволяет задать максимальное количество одного и того же запроса к одной и той же поисковой системе через разные прокси. Например, при первой попытке запрос к поисковой системе не удался из-за превышения таймаута или защиты от автопоиска, тогда делается вторая попытка того же запроса через другой прокси, если не получилось – то через третий и.т.д.

    Примечание: в Журнале число попыток загрузки страниц указывается в квадратных скобках.

    Поддерживаемые типы прокси: http, socks4(a), socks5.

    Cписок прокси задается обычным текстовым файлом (.txt), который должен содержать набор адресов с портами, каждый на отдельной строке. В случае приватных прокси можно указать логин с паролем.

    Формат строки в файле:

           адрес:порт@логин:пароль

    Пример содержания такого файла:

    certowa.lawson.com:80
    60.175.203.243:8080@login:parol
    shack.bottalk.org:3128
    opwv-demo-04.openwave.com:8088
    061244235034.static.ctinets.com:3128

Пакетная проверка / Проверка сайта / Локальная проверка


Помимо обычной проверки в программе существуют Пакетная проверка - проверка документов из указанной директории, Проверка сайта - проверка сайта или отдельных страниц, адреса которых берутся из указанного текстового файла и Локальная проверка - проверка текста на уникальность среди проиндексированных системой документов из указанной локальной папки.

Пакетная проверка

Проверка документов из указанной директории – рекурсивно берутся все текстовые, вордовские и pdf-файлы (*.txt, *.doc, *.docx, *.pdf, *.odt), но не больше чем указано в 'Максимальное количество документов'. По умолчанию кодировка определяется автоматически, но можно указать и вручную из рядом находящегося всплывающего списка с кодировками. Опционально можно указать директорию, в которую нужно перемещать проверенные документы в зависимости от их уникальности.

Проверка сайта

Проверка разбивается на несколько этапов:

  • Для проверки сайта сначала необходимо скачать его страницы либо введя его адрес в поле 'Укажите адрес' и нажав на кнопку 'Закачать' либо нажав на кнопку 'Загрузить из файла' и выбрав текстовый файл со списком адресов (каждый адрес задается на отдельной строке).

    Примечание: перед закачкой можно настроить фильтр Url, позволяющий отсеять нежелательные веб-документы.

  • В окне с закачанными страницами есть столбик Выбор, который позволяет снять с проверки любую страницу – это можно сделать на этом этапе.
  • Запуск непосредственно проверки.

Примечание: фильтр показа 'Запрещенные' отображает страницы, которые не были закачаны из-за применения фильтра закачки или из-за того, что их адреса находились в файле robot.txt (который обычно располагается в корне сайта).

Локальная проверка

В локальной проверке производится поиск совпадений исходного текста с документами из указанной папки (проиндексированной системой) и ее подпапок (если отмечена галка Учитывать при поиске поддиректории). При поиске не будут учитываться документы, чей размер превышает пороговый - Макс. Размер документов (Мб). Поддерживаемые типы документов - *.txt, *.doc, *.docx, *.pdf, *.odt.

Примечание: В Windows XP по умолчанию в качестве поискового движка используется уже устаревшая технология WDS (Windows Desktop Search). А поскольку Локальная проверка рассчитана на технологию Windows Search, в этом случае может потребоваться установить Windows Search 4.0.

Примечание: Насчет файлов в формате .txt есть один нюанс - они должны быть в правильной кодировке. Например, для русскоязычной windows они должны быть в кодировке windows-1251 или utf-16 (если будут в utf8, то поиск windows может их не найти).

AntiPlagiarism.NET -
Проверка текста на уникальность
Список преимуществ
  • Осуществляет пакетную проверку всех текстов из заданной директории
  • Аккуратно определяет уникальность текста
  • Находит и подсвечивает неуникальные фрагменты текста прямо на восстановленной копии веб-страницы
Бесплатная Демо-версия 1 день
Скачать
  • Определяет уникальность веб-страниц
  • Ищет совпадения по сохраненным копиям поисковиков
  • Работает со списком прокси и многое другое