WordTabulator - это бесплатная программа, предназначенная для анализа и обработки текстов в среде Windows 95/98/NT. Это удобный и мощный инструмент, позволяющий строить индексы словоформ и синтагм для заданного множества текстов. Программа понимает тексты в основных русскоязычных кодировках и может обрабатывать документы в формате HTML, игнорируя их разметку. В дальнейшем планируется добавить ко входным форматам текстов форматы SGML и XML.
WordTabulator позволяет строить упорядоченные индексы встречающихся в тексте морфологических и синтаксических элементов - словоформ, словосочетаний заданной размерности или синтагм.
Анализируемые тексты задаются совокупностью входных текстовых файлов в формате HTML (*.HTM, *.HTML) или обычного текста (*.TXT). Программа понимает три основные кодовые страницы для кириллических текстов: Win-1251, KOI8-r и DOS (866). Можно также задать кодовую страницу ASCII, но в этом случае множество символов алфавита ограничится латинскими буквами. Имеется возможность расширять состав алфавита обрабатываемых текстов и изменять набор символов-разделителей.
Дополнительные возможности анализа дает обработка исключений. В общем случае здесь можно говорить об обработке двух совокупностей текстов, которые можно сравнивать на общность или различие по составу заданных элементов.
http://www.rvb.ru/soft/wt/help.htm Ссылка на скачивание: Word Tabulator 2.2.3 -
http://www.englishelp.ru/archives/soft/translator/Word_Tabulator_2.2.3.zip Программа правильно обрабатывает кириллицу с учетом упраздненных букв русского языка І, Ї (и), Ѣ (ять), Ѳ (фита), Ѵ (ижица), выстраивая словоформы в алфавитном порядке, который был принят до реформы 1918 г. Программа правильно обрабатывает и сортирует диакритические символы западноевропейского и восточноевропейского диапазонов. А текст в UTF-8 может содержать вообще любые разрешенные символы (хоть арабскую вязь или китайские иероглифы; однако эти символы сортируются только по значению уникода).
Входные тексты задаются совокупностью обычных текстовых файлов или документов в формате HTML/XML/SGML. В последнем случае программа умеет отделять полезный контент от используемой разметки. Более того, можно обработать только определенный контент, находящийся внутри заданных тегов. Или наоборот пропустить этот контент при обработке.
Дополнительной возможностью является анализ двух совокупностей текстов, которые можно сравнивать на общность или различие по составу исследуемых элементов.
Для русскоязычных текстов анализ может быть ограничен заданным списком слов в нормальной форме, которые ищутся с учетом морфологии русского языка во всех падежных окончаниях. Поиск необходимых элементов может также задаваться с помощью регулярных выражений.
Выходным результатом программы является файл (или файлы), содержащий индекс найденных текстовых элементов. Этот индекс может быть в формате HTML, с указанием для каждого элемента частоты встречаемости и ссылок на исходный контекст, или в виде простого списка в обычном текстовом файле. Список может быть упорядочен в алфавитном порядке, по значению или по частоте встречаемости элементов.
Теоретически на размеры обрабатываемой совокупности текстов никаких ограничений не накладывается. Все дело в требуемом на обработку времени. Например, собрание сочинений Ф.М.Достоевского в 15 томах на обычном настольном компьютере Pentium Dual Core 2.8 ГГц с 2 Гб оперативной памяти обрабатывается за 8 минут. Исходные тексты занимают на диске около 60 Мб, а размер выходного индекса составляет около 200 тысяч словоформ.
wordTabulator принадлежит к категории бесплатного программного обеспечения с открытым кодом. Консольный модуль обработки написан на языке Icon, графический интерфейс реализован с помощью Delphi 7.
Последний релиз: v3.5 ( 28 марта 2012г ). -
http://sourceforge.net/projects/wordtabulator/files/latest/download http://sourceforge.net/projects/wordtabulator http://www.rvb.ru/soft