cro-logo      
Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация

 
 
  ГлавнаяСправкаПоискВходРегистрация  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Ошибка индексации новых файлов банка документов (Прочитано 2 299 раз)
Энкан
Профи
****
Вне Форума



Сообщений: 357
Владивосток
Ошибка индексации новых файлов банка документов
18.09.2019 :: 15:59:11
 
Добавлю тему раз уж так совпало, сегодня формировал банк документов, более 5 тысяч папок на 60 тысяч документов, но при добавлении крос вылетал на индексации, методом исключения (всего то 8 часов добавления и исключения папок с файлами... ) был выявлен "битый" вородовский файл с ошибкой Word - "не известный тип архива", который и ронял крос на индексации.

И теперь вопрос, какими методами/утилитами можно выявить такие кривые файлы до начала загрузки, чтобы не корявить базу?
Наверх
 
 
IP записан
 
Rasen
Бета-тестер
Вне Форума



Сообщений: 135
Re: Ошибка индексации новых файлов банка документов
Ответ #1 - 19.09.2019 :: 08:08:58
 
Понять бы, в чем "кривизна" этого файла? Ведь Крос принимает не только текстовые файлы. Те же файлы изображений "*.jpg, *.png"  и т.д. Нормально индексируются и отображаются (только не прочтешь..). Впрочем вопрос актуален. были случаи, когда файл загружался, но при проверке не читался (ранее сталкивался  с этой проблемой при загрузке файлов с новой версией Pdf). Приходилось при загрузке смотреть каждый раз версию загружаемого файла. Но это возможно только при единичной загрузке.
Наверх
 
 
IP записан
 
Энкан
Профи
****
Вне Форума



Сообщений: 357
Владивосток
Re: Ошибка индексации новых файлов банка документов
Ответ #2 - 19.09.2019 :: 15:37:19
 
К сожалению тайны кривых файлов в ворде для меня загадка, один пример я привел, мелькали еще в разговорах темы внутренних архивов docx, ошибка кроется именно там.

Было бы не плохо, если бы у кроса была возможность просто пропускать битый файл, а не рушить все индексы (((
Наверх
 
 
IP записан
 
Пытливый
Профи
****
Вне Форума



Сообщений: 382
Мурманск
Re: Ошибка индексации новых файлов банка документов
Ответ #3 - 20.09.2019 :: 04:04:45
 
Вордовский формат в большей степени уже не секрет, поэтому существует масса альтернативных программок, которые могут создавать вордовский файл совместимый процентов на 99,99 и вот эта одна сотая может здорово попортить жизнь. Даже если вы проверите все файлы на валидность, все равно у вас не будет 100% гарантии, что Крос подхватит этот файл без проблем, т.к. чем пользуется сам Кросс для чтения вордовского документа большой вопрос. Улыбка
Наверх
 
 
IP записан
 
Энкан
Профи
****
Вне Форума



Сообщений: 357
Владивосток
Re: Ошибка индексации новых файлов банка документов
Ответ #4 - 20.09.2019 :: 16:08:19
 
Серег, так вот и вопрос как массово и быстро проверить на валидность, не руками же по 3-4 тысячи файлов в месяц проверять
Наверх
 
 
IP записан
 
Пытливый
Профи
****
Вне Форума



Сообщений: 382
Мурманск
Re: Ошибка индексации новых файлов банка документов
Ответ #5 - 20.09.2019 :: 17:33:21
 
Написать утилиту, которая будет тупо открывать вордовский файл и закрывать его - проблема 10 минут, а если делать красиво и быстро, то часа на 2 возни с тестами. В теории, даже такая проверка должна вычислить битый файл. Вечерком сделаю и ссылочку кину. Если еще остался где-то этот битый файл, на котором можно бы тестить - будет чудно.
Наверх
 
 
IP записан
 
Энкан
Профи
****
Вне Форума



Сообщений: 357
Владивосток
Re: Ошибка индексации новых файлов банка документов
Ответ #6 - 20.09.2019 :: 18:29:38
 
напомни в личку емейл, я скину два таких файла.
Наверх
 
 
IP записан
 
Дмитрий С.
Начинающий пользователь
*
Вне Форума



Сообщений: 2
Re: Ошибка индексации новых файлов банка документов
Ответ #7 - 27.12.2019 :: 00:03:37
 
А какой результат с подготовкой утилиты по проверке файлов? Тоже очень нужна такая.
Наверх
 
 
IP записан
 
Дмитрий С.
Начинающий пользователь
*
Вне Форума



Сообщений: 2
Re: Ошибка индексации новых файлов банка документов
Ответ #8 - 27.12.2019 :: 00:07:22
 
так же столкнулся с "вылетом" программы при индексировании сбойных вордовских файлов.
Причем эти сбойные файлы в базу все-таки добавляются, но не индексируются, а так же не индексируются все оставшиеся в очереди после сбойного. Соответственно поиск внутри этих неиндексированных файлов не производится, хотя они и добавлены. Удалить теперь из базы сбойные файлы невозможно, т.к. при их выборе опять происходит сбой программы и полное закрытие.
Пока видится только один выход – удаление базы и создание ее заново избегая добавления сбойных файлов. Что само по себе не радует, т.к. в базе может содержаться много другой нужной информации.
Наверх
 
 
IP записан
 
Пытливый
Профи
****
Вне Форума



Сообщений: 382
Мурманск
Re: Ошибка индексации новых файлов банка документов
Ответ #9 - 27.12.2019 :: 18:05:41
 
Прошло время, я уже забыл об этой теме, но я написал утилитку массовой конвертации в формат Docx. К сожалению не удается ее заставить 100% надежно работать, но вордовские файлы, которые могут вызвать потенциальную проблему она довольно успешно находит. Вот какие интересные находки в процессе ее работы обнаружились.
Файл формата rtf с расширением .Doc, вордом открывается, а вот чем-то другим не факт.
Файл формата OpenOffice и с расширением .Doc может тоже породить проблему.
Файл формата Docx и с расширением .Doc может тоже породить проблему.
Файл созданный в старой версии ворда 2000 годов считается небезопасным и для его открытия надо подтверждение, тоже может породить проблему.
Файл частично поврежденный, но который может ворд восстановить ведет себя как и старый формат, но требует еще и монопольный режим для открытия.
Файлы с атрибутом ридонли тоже могут породить проблему.
Есть файлы, на первый взгляд совершенно нормальные, но их открыть можно исключительно в ворде и ни в чем другом.
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать