"국립 지질 기록 보관소"
2 층 PDF 및 OCR 기술의 특징과 적용 전망을 설명하면서 지질 데이터 디지털 그래픽 데이터 2 층 PDF 변환의 의미에 대해 논의했습니다. 변환 방법 선택, OCR 디지털 처리 시스템 및 인식률 향상 방법에 대해 자세히 설명합니다. 마지막으로, 지질 파일 건설에서 이중층 PDF 의 의미를 제시했다.
이중 레이어 PDF;; OCR;; 인식률
현재 지질 데이터 수집 기구는 디지털화 작업을 강화하고 있다. 20 13 연말까지 이미 20 여 개의 성급 기록 보관소가 소장 디지털화를 완료했으며, 국가 지질기록 보관소 지질자료 디지털화 작업이 막바지에 다다랐다. 형성된 대량의 데이터는 지질 데이터 정보 사회화 서비스의 중요한 데이터 자원이 되었다. 이러한 디지털 데이터는 정적이며 읽기와 사용에 편리하지만 전체 텍스트를 검색할 수 없으며 추가 분석 및 처리에 도움이 되지 않습니다. 따라서 기존 데이터를 기반으로 OCR 인식을 수행하고, 이중 PDF 파일로 변환하고, 정적에서 동적으로 전환하고, 전체 텍스트 데이터베이스를 구축하고, 지질 데이터의 전체 텍스트 정보 검색을 완료하고, 데이터 디지털화를 촉진하는 지질 데이터 수집 기관이 되었습니다.
1 더블 레이어 PDF 및 OCR 기술 정보
2 층 PDF 는 OCR 인식이 스캔 데이터를 기반으로 생성하는 검색 가능한 PDF 파일입니다. 즉, 상위 계층은 원본 이미지이고, 하위 계층은 인식 결과이며, 위치는 하나씩 대응됩니다. 이중 레이어 PDF 파일은 100% 로 원본 레이아웃 효과를 유지할 수 있을 뿐만 아니라 선택, 복사, 검색 등의 기능도 지원합니다. 이러한 PDF 파일은 결국 CD, 하드 디스크 또는 디스크 어레이에 저장할 수 있으며 인덱스 데이터베이스를 구축하여 과학적으로 관리할 수 있습니다.
광학 문자 인식인 OCR (Optical Character Recognition) 은 스캐너 또는 디지털 카메라와 같은 전자 장치가 종이에 인쇄된 문자를 검사하고 음영 패턴을 감지하여 모양을 결정한 다음 문자 인식을 통해 모양을 컴퓨터 문자로 변환하는 프로세스입니다. 텍스트 데이터를 스캔한 다음 이미지 파일을 분석하여 텍스트 및 레이아웃 정보를 얻는 프로세스입니다. 컴퓨터 네트워크의 급속한 발전에 따라 정보 전자화는 이미 시대의 필연적인 추세가 되었다. 정보가 가장 중요하고 집중적인 전달체로서, 전자 글쓰기의 과정은 특히 중요하다. OCR 기술은 전자책 작성 과정에서 가장 중요한 부분으로, 기존의 종이 매체 데이터 입력 개념을 바꾸었다. OCR 기술을 통해 사용자는 카메라, 스캐너 등의 광학 입력을 통해 얻은 신문, 책, 원고, 양식 등의 인쇄물에 대한 이미지 정보를 컴퓨터에서 인식하고 처리할 수 있는 텍스트 정보로 변환할 수 있습니다. 따라서 OCR 기술은 기존의 수동 입력기 방식에 비해 데이터 저장, 검색 및 처리의 효율성을 크게 향상시킵니다.
2 적용 상태
PDF 는 세계 각국의 정부, 금융, 법률, 엔지니어링 기술, 의료 등 여러 부문에 광범위하게 적용되어 정부, 학술 부문 등 단위의 표준 현대 공문 형식 규범이 되었기 때문에 PDF 전자 형식 문서는 미래 기록부의 주체가 될 것이다. 이중층 PDF 의 출현은 식별 비용과 읽기 활용도 사이의 모순을 효과적으로 해결하며 잠재적 자원 형식입니다. IBM, 모토로라, HP, Microsoft 등 전 세계 기업들을 포함한 OCR 기술의 해외 응용은 이미 성숙해 왔으며, OCR 기술을 자체 제품에 연결하고 있습니다.
오늘날 OCR 기술은 중국에서도 널리 사용되고 있습니다. 정보 검색 기술 연구, 즉 이중층 PDF 검색 기술 연구, 중국' 863' 프로젝트는 2008 년 전부터 중국어 OCR, 자동 분사, 자동 요약, 자동 검색, 자동 포지셔닝에 대한 통합 테스트 평가를 시작했습니다. 이를 바탕으로 우리나라는 점차 디지털 도서관, 디지털 기록 보관소, 디지털 신문, 디지털 캠퍼스 네트워크 등 디지털화 기반 실시 사례 (예: 신문출판총서, 외교부, 단 중앙의 문헌 전문데이터베이스 등) 를 구축했다. "중국 청년" 75 년과 "신화다이제스트" 20 년 전문데이터베이스. 일찍이 1999 에 국립도서관은' 국가도서관 문헌 디지털화센터' 를 설립하여 각종 소장품 문헌을 디지털화하고 감정했다. 이를 바탕으로 서서서고, 서지 데이터베이스, 전문데이터베이스 3 대 범주를 형성하여 점차 우리나라 온라인 정보자원의 중심 허브가 되었다.
우리나라의 정보화 건설이 전면적으로 보급됨에 따라 OCR 기술의 응용 전망이 더욱 넓어졌다. 디지털 도서관, 디지털 기록 보관소, 디지털 기록 보관소의 개념은 또한 OCR 이 종이 기록 보관소의 디지털화에서 점점 더 독특한 역할을 하고 있으며, 인력과 자원을 절약하고, 아카이브 정보 자원의 활용 가치를 극대화하고, 사람들에게 더 나은 서비스를 제공할 수 있게 해 줍니다.
3 디지털 데이터 2 계층 PDF 변환의 중요성
3. 1 지질 정보화 건설의 중요한 내용이다.
사회 정보화 수준이 높아짐에 따라 정보 자원에 대한 의존도가 높아지고 아카이브 자원의 효율적인 관리, 검색 및 활용에 대한 수요도 점점 더 절실해지고 있습니다. 디지털화는 정보화 건설의 중요한 내용이고, 정보화 건설의 핵심은 자원 건설이다. 자원 건설에는 세 가지 주요 임무가 포함됩니다. 하나는 종이 자료의 스캔 디지털화와 카탈로그 데이터베이스 구축입니다. 둘째, 전자 문서의 보관 및 관리; 셋째, 전체 텍스트 데이터베이스 및 전체 텍스트 검색 시스템 구축. 각 기록 보관소의 디지털화 작업의 진전에 따라 사용자의 활용 요구를 감안하여 실제 텍스트 형식의 전자 정보를 얻기 위해 데이터 디지털화 작업을 더욱 효과적이고 철저히 하고 사용자의 활용도를 극대화하기 위해 OCR 기술을 적용하여 스캔 래스터 파일에 대한 2 층 PDF 변환을 수행해야 합니다. 지질 데이터의 전체 텍스트 데이터베이스 구축 및 전체 텍스트 검색을 수행합니다.
3.2 는 지질자료 전문검색과 전문데이터베이스 건설의 전제조건이다.
2 층 PDF 문서를 기반으로 한 전체 텍스트 검색이 쿼리 활용의 효율성을 높이는 것으로 입증되었습니다. 아카이빙된 데이터베이스의 데이터와 이중층 PDF 문서의 텍스트 레이어를 인덱싱하면 데이터베이스에 액세스하지 않고도 데이터베이스와 시스템에 대한 부담을 줄일 수 있습니다. 최소 10 만 데이터, 밀리초급 쿼리 시간, 초당 수천 명의 동시 액세스를 지원하여 대용량 고속 목표를 달성하고 Linux 및 Windows 플랫폼에 맞게 다양한 데이터베이스 인터페이스를 지원합니다. 일반 검색 엔진의 구조와 기능을 갖추고 있어 사용자의 입력을 세그먼트화하고, 다중 키워드 검색과 키워드 조합 검색, 인간화를 할 수 있습니다. 또한 고객의 요구에 따라 사용자 데이터를 마이닝하여 전체 파일 검색 시스템의 가치를 높일 수 있습니다.
3.3 은 현대 데이터 센터 표준화의 전제 조건입니다.
현대화된 데이터 센터를 구축하려면 먼저 전자 파일의 저장 구조, 즉 일반적이고 널리 사용되는 전자 파일 정보 저장 및 교환 형식을 규범화해야 한다. 전자 파일 관리에서 전자 파일의 장기 보존을 위한 최신 표준인 PDF 형식은 국제적으로 완벽하게 구현되었으며 호환성, 원시 기록성, 보안 제어 정책 개선 등의 장점을 갖추고 있으며 전자 파일의 장기 보존을 위한 최선의 선택입니다. 따라서 컬렉션 디지털 데이터를 PDF 형식으로 변환하는 것이 필수적입니다.
4 더블 레이어 PDF 변환 방법
4. 1 현재 일반적인 2 단계 PDF 변환 방법
현재 국내 이중층 PDF 의 변환 기술은 이미 비교적 성숙했다. 기존의 기술 조건으로 볼 때 대략 다음 세 가지로 나눌 수 있다.
4.1..1소프트웨어 변환
Adobe Acrobat, ABBYY FineReader 12 (중국어 및 영어 인식), Readiris Corporate 12 (영어 인식률 높음), foo 그러나 인식률은 인쇄 방법, 선명도, 용지 품질 등과 같은 원본 종이 재료에 비례합니다. ) 및 운영자의 기술 수준. 종이 원본은 품질이 좋고 인식률이 비교적 높다. 품질이 좋지 않으면 인식률이 비교적 낮다.
4. 1.2 프로세스 처리
관련 기술 요구 사항에 따라 이미지에 대한 새로운 OCR 인식 프로세스를 수행하고, PDF 파일을 재생성하며, 텍스트 정확도가 높고, 텍스트 위치가 정확하다는 특징을 가지고 있습니다. 이 방법은 2 층 PDF 파일의 전체 프로세스 제작에 해당하며 작업량이 많고 시간이 오래 걸리며 비용이 많이 듭니다.
4. 1.3 인식 재구성
레이아웃 글꼴, 크기, 색상 복구를 위해 PDF 파일을 재생성합니다. 문자 정확도는 높고, 페이지는 선명하지만, 원도와 큰 차이가 있어 주로 책에 쓰인다.
4.2 지질 데이터의 2 단계 PDF 변환
20 1 1, 국립관은 디지털 스캔을 바탕으로 이중층 PDF 변환 실험을 시작했다. 첫 번째 방법은 주로 소프트웨어 변환에 사용됩니다. 즉, 소프트웨어가 자동으로 OCR 을 처리한 후 바로 이중층 PDF 파일을 형성하는 것입니다. 지질자료는 일반 문서 파일과는 달리 종이 스타일과 인쇄 방식이 다양하고 필기, 낡은 재료가 많고 지층, 수학 등 특수 기호가 많아 OCR 자동 인식에 어려움을 겪고 있다. 단일 소프트웨어 식별은 전체 텍스트 검색의 90% 이상 인식률을 충족하지 못합니다.
변환 테스트를 바탕으로 다음과 같은 결론을 얻었습니다.
1) 지질 데이터 자체는 다양합니다. 실제 인식률은 주로 인쇄 품질, 지층 연대 등의 요인에 의해 영향을 받으며, 오래된 데이터와 종이 차이의 데이터 인식률은 일반적으로 낮습니다. 필기자의 쓰기 습관과 쓰기 선명도의 영향을 받아 필기 문서의 인식 정확도는 일반적으로 30% 이하이다. 오일 인쇄 문서의 식별 정확도는 일반적으로 50% 미만입니다. 인쇄, 납 인쇄, 오프셋 인쇄 문서의 인식률이 비교적 높아 일반적으로 90% 이상에 달한다. 어떤 문서든 구두점의 인식률이 낮고 지층, 수학 기호 등 특수 기호의 인식률은 거의 0 이다.
2) 현재 인식 기술은 아직 100% 에 미치지 못하고 있으며, 초기 식별 결과는 실제 요구에 따라 종이 문서를 수동으로 교정해야 전체 텍스트 검색 요구 사항을 충족시킬 수 있다.
3) 스캔한 지질 데이터 파일의 수, 용량, 변환 속도는 컴퓨터 반응 속도의 영향을 받는다. 대규모 변환 및 식별, 대량 변환 및 수동 식별을 위해 고도로 구성된 컴퓨터를 선택해야 하며, 전담 자금 지원이 필요합니다.
4.3 OCR 디지털 처리 시스템 소개 및 기능
현재 국내의 이중층 PDF 변환 방법을 비교한 후 지질 데이터의 복잡한 특징과 데이터 테스트 결과를 결합한 연구에 따르면 지질 데이터의 이중층 PDF 변환은 주로 소프트웨어 인식과 프로세스 처리가 결합된 방법, 즉 OCR 디지털 처리 시스템을 통해 이중층 PDF 변환의 효율성과 품질을 보장할 수 있다고 제안한다. 이 시스템은 주로 다음과 같은 주요 프로세스로 구성됩니다.
그림 1 OCR 디지털 처리 시스템 다이어그램
1) 이미지 처리. 인식률을 높이기 위해 이미지를' 파란오염 제거' 처리하고 오목한 구덩이, 밑줄 등 인식률에 영향을 미치는 소음을 제거하며 이미지 처리 품질은 이미지 품질 관리 프로그램에 의해 자동으로 모니터링됩니다.
2) 레이아웃 분석. 레이아웃을 자동으로 이해하고 배치하여 테두리 영역이 가로 텍스트 영역, 세로 텍스트 영역, 표 영역 또는 이미지 영역인지 확인하고 다른 색상의 와이어프레임으로 다른 속성의 영역을 식별합니다. 자동 레이아웃 분석은 백그라운드에서 실행되며 운영자는 포그라운드에서 확인할 수 있으며 필요한 경우 자동 레이아웃 분석 결과에 수동 개입을 추가할 수 있습니다.
3) 인정. 텍스트 이미지를 컴퓨터 텍스트 내부 코드로 변환하여 인쇄 및 손으로 쓴 중국어 (단순 번체 포함), 중국어-영어 혼합 문자 및 표를 인식할 수 있습니다. 인식된 텍스트 내부 코드는 GB 코드, BIG5 코드, GBK 코드 또는 유니코드 코드일 수 있습니다. 인식 프로세스가 백그라운드에서 실행됩니다.
4) 수직 교정. 오류 감지 기능이 뛰어나 하나 이상의 이미지에서 같은 단어로 식별된 텍스트 이미지를 함께 표시하고 의심스러운 단어를 강조 색상으로 표시하여 운영자가 오류를 발견하고 수정할 수 있도록 합니다.
5) 수평 교정. 작업자가 인식 결과 텍스트를 이미지와 직접 비교하여 인식 오류 텍스트를 찾는 전통적인 수동 교정 방법입니다. 텍스트에 해당하는 이미지가 자동으로 호출되어 비교됩니다. 동시에, 눈에 띄는 색으로 문자의 식별 신뢰도를 표시하다.
6) 레이아웃 복원. 인식 및 수정된 텍스트를 스캔 레이아웃과 동일한 RTF, PDF, HTML, SGML/XML 형식의 디지털 문서로 복원하고 컴퓨터에서 읽고 검색할 수 있습니다.
7) 데이터 웨어하우스. 레이아웃 복원을 이용하여 디지털 문헌을 보존하다.
4.4 OCR 인식률을 향상시키는 방법
OCR 디지털 처리 시스템에서 생성된 2 층 PDF 는 텍스트 레이어 오류율이 가장 낮고 만분의 1 로 원본 음영 및 색상 특성을 나타낼 수 있으며 전체 텍스트 검색 및 복제에 사용할 수 있으며, 검색 정보를 정확하게 찾을 수 있어 대상 정보를 빠르게 찾을 수 있습니다. 가로방향 교정, 즉 수동 교정의 작업량을 줄이고 업무 효율성을 높이기 위해서는 인식률을 근본적으로 높여야 한다. 실험을 통해 다음 방법을 통해 래스터 파일의 OCR 인식률을 높일 수 있습니다.
1) 이미지 색상 설정. 그레이스케일 또는 컬러 모드는 종이 재질의 원래 모습을 최대한 복원할 수 있지만, 이 두 가지 색상 모드는 인식률에 영향을 미치는 배경 노이즈를 증가시킵니다. 문자 인식과 일반 흑백 일러스트레이션 선택만 하는 경우 스캐너의 이미지 색상을 흑백으로 설정하여 인식률을 높이는 것이 좋습니다. 그러나 최종 이미지 색상 설정은 다양한 특정 작업의 사양 요구 사항에 따라 설정해야 합니다.
2) 해상도 설정. 우리 모두는 스캔 해상도 설정이 낮을수록 스캔 속도가 빨라지지만 이미지 품질이 떨어지고 문자 인식 정확도가 낮다는 것을 알고 있습니다. 반대로 해상도가 높고 스캔 속도는 느리지만 문자 인식 정확도가 높습니다. 그러나 해상도 설정이 너무 높으면 용지의 작은 결함도 구두점이나 한자로 간주될 수 있기 때문에 문자 인식의 정확도가 떨어질 수 있습니다. 반복적인 테스트를 거쳐 해상도는 300dpi 로 설정되는데, 이는 스캔 속도와 문자 인식 정확도의 최적 균형입니다.
3) 이미지 처리. 여기서 이미지 처리는 출력 이미지를 스캔하기 전에 기울기 보정 및 오염 제거를 말합니다. 기울기 교정은 OCR 인식에 도움이 되도록 문자의 방향을 조정하는 것입니다.
2 층 PDF 변환이 완료되면 데이터 관리 시스템을 PDF 파일에 연결하여 데이터 내용, 메타데이터 등의 관련 정보를 연결하여 패킷을 만들 수 있습니다. 그런 다음 전체 텍스트 데이터베이스의 원시 데이터를 호출하여 인덱스 파일을 만들어 전체 텍스트 검색을 수행합니다. 전체 텍스트 데이터베이스와 전체 텍스트 검색의 실현을 통해 높은 조회율과 정확도로 지질 데이터의 활용 가치를 크게 높이고 지질 데이터의 편찬을 촉진하며 지질 데이터 정보 집계에 대한 연구와 심도 있는 서비스를 위한 토대를 마련했습니다.
참고
[1] 허가. 파일 디지털화에 OCR 기술 적용 [J]. 파일 관리, 20 1 1( 1).
[2] 허. 파일 디지털화에 OCR 기술 적용 [J]. 예술과 기술, 20 1 1(2).
장헌. OCR 기술의 연구 진척과 전망 [J]. 과학기술, 20 10(4).
[4] 곽. 더블 레이어 PDF 기술 및 파일 디지털화에서의 응용 [J]. 새로운 관찰, 20 13( 1).
[5] 유. 파일 저장 형식 및 PDF 문서 [J]. 파일 연구, 2002(2).