Главная » 2015 » Октябрь » 15 » BookParser - програмка для замены html-кодов в книгах
08:33 BookParser - програмка для замены html-кодов в книгах | |
Недавно я наткнулся в сети на сборник рассказов, которые, вероятно, были отсканированы с распознаванием текста. А распознавание текста - это процесс, в котором часто совершается много ошибок. И помимо обычных опечаток в словах, по ходу чтения вместо некоторых символов мне попадались их html-коды. Например, вместо символа "&", у меня в тексте было "&", вместо кавычки " " " - """, а вместо знака неразрывного пробела " " стояло " ". Причем в некоторых текстах количество таких косяков измерялось реально сотнями! Естественно, что чтение таких рассказов не приносило никакого удовольствия. Первый раз я вручную исправлял все через автозамену в Notepad++. Ручное исправление - довольно долгий и нудный процесс, кроме того, можно было случайно пропустить один или несколько html-кодов, которые потом внезапно появлялись при чтении и "портили аппетит". Тогда, как тру прогер, я решил написать программу, которая бы пробегалась по книге и в соответствии с заданным набором правил заменяла бы html-коды на обычные символы. Так появился BookParser. В качестве языка программирования был выбран Java - я как раз его осваивал в то время, и мне бы не помешало немного практики. Кроме того, на Java очень просто сделать интерфейс, а на C и C++ с оконными приложениями я пока ещё не работал. Да и там наверняка пришлось бы подключать какие-нибудь сторонние библиотеки, в то время как в Java все встроено и готово к работе "из коробки". BookParser После запуска BookParser создает два файла - BookParser.ini и BookParser.log. В .ini вы можете настраивать свои собственные замены (заменять можно только последовательности символов, начинающиеся с "&" и заканчивающиеся ";") или убирать существующие, а в .log во время парсинга книжки добавляется всякая полезная инфа. Оба файла обязательны к ознакомлению. После прогонки книжки в папке с программой создается её отредактированная копия. Оригинальный файл никак не изменяется, поэтому можно парсить книжки с режимом "только для чтения". При этом : - прога работает только с fb2 файлами - если прога встречает низвестный html-код, в выходном файле он будет вырезан из текста - замены вида & = """ или & = "&" т.е. замены одного кода на другой запрещены (иначе прога повиснет) - кодировка учитывается автоматически, при условии, что в первой строчке fb2 файла указано корректное значение тега encoding - при попытке намеренно подсунуть неверную или не существующую кодировку можете получить на выходе иероглифы Интерфейс программы прост и содержит всего одну кнопку. Ну, и один чекбокс. Кнопкой выбираем книгу, а чекбокс отмечаем, если хотим прогнать и все остальные книжки в этой папке. Чекбокс полезен, когда у вас в одной папке лежат, скажем, 200 книг, и в каждой из них вы хотите сделать замены. Скачать можно здесь - https://yadi.sk/d/s7GpbbugjjeAw | |
Просмотров: 1942 | |
Всего комментариев: 0 | |
Категории раздела
Arma 3 [11] |
Сайт [2] |
Мысли и обзоры [5] |
Minecraft [1] |
Поиск
Наш опрос
Мини-чат
Статистика
Онлайн всего: 1
Те, кому лень регаться: 1
Пользователей: 0