|
Описана система, решающая задачу очистки и разбора текстов. Система обрабатывает частично структурированные данные, такие как прайс-листы, описания деталей/конструкций и прочее. Программа разбивает информацию, представленную в виде произвольного текста на составные части. Например, в состоянии из описания детали выделить название, изготовителя, ГОСТ, различные характеристики. В программе используются самообучающиеся механизмы, благодаря чему, по мере работы, система автоматически накапливает все больше информации о правилах разбора для конкретной предметной области и улучшает качество работы. Очищенная и разобранная таким образом информация значительно проще в обработке.
|