DBRaptor - это экскаватор данных
excavator 
Исходными данными для миграции обычно являются файлы в различных форматах, таких как: TXT (текст), XLS (Excel), CSV (Comma Separated Value - разделителем является запятая, TAB (разделитель - знак табуляции), Space-delimited и Char-delimited (разделитель - пробел или иной символ), XML, LAS (геофизические данные) и другие. DBRaptor имеет мощный инструмент создания и настройки шаблонов для чтения подобных файлов.

Кажущееся многообразие форматов исходных данных в конечном счете сводится к ограниченной группе. Главным преимуществом DBRaptor является способность извлечь и систематизировать информацию из исходных данных, представляющих собой как слабо структурированный, так и практически неструктурированный набор записей и цифр.

Здесь не упоминаются табличные данные типа элементарных кросс-таблиц Excel или XML файлов, в которых информация уже хорошо структурирована. Такие файлы не составляют трудности для обычных средств импорта в базы данных.

Наибольшую проблему в процессе извлечения данных создают файлы, в которых трудно однозначно выделить строки и столбцы. Часто случается так, что экспортированная в CSV файл информация уже не сохраняет табличную структуру. В итоге стандартные ETL пакеты не в состоянии обработать такие файлы. Некоторые продвинутые пакеты предлагают использовать взрывающие мозг пользователя конструкции, в результате чего последний вынужден опускать руки и обращаться за консультацией к дорогостоящим специалистам.

В программе DBRaptor реализован нормальный человеческий подход к решению проблемы. Пользователь может легко “научить” систему извлекать исходные данные из файлов и размещать их, как говорится, по полочкам. Обученная система может хранить настроенные шаблоны чтения и преобразования, а пользователь может применять их неоднократно.

В широком пользовании ходят темплейты утвержденных и рекомендованных к использованию счетов-фактур. Это наиболее легкий способ выписки документа для секретаря-машинистки или другого ответственного лица. Достаточно заполнить и распечатать. Обычно на всякий случай сохраняют электронную копию. Однако проблема остается - как проанализировать эти документы, после того как накопится сотня или тысяча таких счетов-фактур? Приходится открывать каждый документ в Excel и разглядывать детально. Ни о каком анализе тут говорить не приходится - трудно найти время и сконцентрироваться на поиске нужных подробностей.

Счет-фактура
Типичное строение файла счета-фактуры

Красными контурами показаны области значений, откуда будут извлекаться данные в таблицы базы данных. На этом примере хорошо видно, что документ состоит из разных частей, в верхей части перечисляются общие для счета-фактуры значения, в центральной части вы видите таблицу, куда записываются названия товаров и их описание, затем ниже идет вновь перечисление фамилий. Под извлечением данных из подобных файлов подразумевается адресация каждого значения из текста и определение места в приемнике данных.

Существуют файлы, в которых данные вообще не имеют очевидных разделителей, в которых нельзя полагаться и на подсчет числа пробелов, так как структура таких файлов не определяется числом пробелов между данными. Например, данные с геофизических датчиков и приборов - LAS файлы. Структура в них определяется расположением данных в определенных интервалах символов строки. Причем внутри файла обычно содержится несколько областей данных, различающихся друг от друга структурой. Традиционно такие файлы обрабатываются (читаются) специально написанными для этих целей программами. Пакет DBRaptor способен не только прочитывать такие файлы, но и создавать на их основе реляционные базы. Таким образом, после обработки пары десятков тысяч LAS файлов, уже в течение пары часов, консультант может иметь на руках мощную и удобную базу для аналитической работы и прогнозирования запасов нефти или газа.

Las file
Типичное строение LAS файла

Одними из наиболее сложных документов являются разнообразные электронные формуляры, обычно заполненные через PDF формы или те же Excel/Word-темплейты. Данные в таких документах чаще всего не имеют вообще никакой табличной структуры. Короче говоря, для пакета DBRaptor практически не существует невозможного для импорта и последующего структурирования текстового файла. Более того, импорт и структурирование данных в DBRaptor можно поставить на поток, обработать все расположенные в каталоге файлы.

Если у Вас остались вопросы, заполните форму, и мы свяжемся с Вами в ближайшее время.

Или же Вы можете обратиться в
службу поддержки