Spring Batch 이란?


Spring Batch 개요

  • 스프링 배치는 스프링을 만든 Pivotal의 프로젝트 중 하나이다.
  • 이전 스케줄러에서 하던 작업을 대용량 배치로 빼서 만든 프레임워크이다.
  • 기존 스케줄링 작업은 로그 확인이 어려웠다.
  • Spring Batch는 일괄적 데이터 처리 가능하다.
  • 스키마(mysql.sql)을 통해 spring batch 메타 정보들 관련 table 생성할 수 있다.

Spring Batch 기본 개념

Job

  • Batch의 가장 큰 작업의 담위이며, 실행의 단위가 된다.
  • Bean을 통해 Job을 등록하고 파라미터 설정으로 Job 실행 가능하다.
  • N개의 Job을 생성할 수 있다.
  • Job은 N개의 Step으로 구성되어 있다. 최소 1개의 Step을 가져야 한다. 엄청나게 복잡한 Job이 아닌 이상 2-10개의 Step을 권장한다.

Step

  • Job안에 속하게 되는 작업이다.
  • Step은 Tasklet 처리 방식과 Chunk 지향 처리 방식(reader, processor, writer)을 지원하고 있다.
  • Step은 읽기 > 가공하기 > 쓰기의 묶음이다. 이 묶음을 Chunk processiong이라고 부르는데 하나의 트랜잭션으로 이해하면 된다. 바로 이 Chunk processing의 재시작의 핵심이다.

Tasklet

  • Step안에 속하는 작업이다.

Chunk

  • Chunk란 처리 되는 커밋 row 수를 의미한다.

  • Batch 처리에서 커밋 되는 row 수라는건 chunk 단위로 Transaction을 수행하기 때문에 실패시 Chunk 단위 만큼 rollback이 되게 된다.

  • Chunk 지향 처리에서는 다음과 같은 3가지 시나리오로 실행된다.

    • 읽기(Read) — Database에서 배치처리를 할 Data를 읽어온다
    • 처리(Processing) — 읽어온 Data를 가공,처리를 한다 (필수사항X)
    • 쓰기(Write) — 가공,처리한 데이터를 Database에 저장한다.

chunk, page 개념

  • page : 처리할 데이터 중 일정 개수만큼 조회
  • chunk : 조회한 데이터를 일정 개수만큼 처리 후 입력
  • page = chunk * n으로 세팅해야 성능적으로 좋다고 한다. 보편적으로는 page = chunk이다.

ItemReader

  • ItemReader는 말 그대로 데이터 읽기를 담당한다.
  • 필수이다.
  • 데이터 조회 타입
  • ItemReader 주요 구현체들
    • CursorItemReader : (stream)방식으로 1건씩 처리한다.
    • PagingItemReader : (page) 사이즈 만큼 조회하여 처리한다.

ItemProcessor

  • ItemProcessor는 ItemReader에게서 Object를 넘겨받아 원하는 방식으로 가공 후에 ItemWriter에 넘겨주는 역할을 하며, 한번에 하나의 아이템을 처리한다.
  • 필수가 아닌다.
  • 조회 데이터 후 가공한다.
  • ItemProcessor 주요 구현체들
    • CompositeItemProcessor : 프로세스를 체이닝 처리하여 순차적 진행한다.

ItemWriter

  • ItemReader 혹은 ItemProcessor가 ItemWriter로 데이터를 넘겨주면 리스트에 차곡차곡 쌓아놓는다.
  • 필수이다.
  • 데이터를 저장한다.
  • ItemWriter 구현체들
    • CompositeItemWriter
    • FlatFileItemWriter
    • HibernateItemWriter
    • JdbcBatchItemWriter
    • JsonFileItemWriter
    • MongoItemWriter

JobLauncher

Job을 실행하는 역활을 한다.

JobRepository

Job, Step 등의 배치 작업에 대한 메타 정보를 처리하는 인터페이스이다.
메타정보는 Spring Batch가 제공하는 핵심 기능 중 하나이다.

Spring Batch Meta-Data Schema

Spring Batch에는 Meta-Data가 Table 6개, Sequence 3개가 존재한다. 여기에 Spring BatchJob이 실행 될 때마다 실행된 Job에 대한 다양한 정보들이 저장되게 된다.

일반적으로는 Meta-Data Table이 없이는 Spring Batch를 실행시킬 수 없으나, 이는 필요에 따라 커스터마이징을 통해 Meta-Data Table이 없이도 실행되게 만들 수 있다. 하지만, 시스템 운영을 하면서 배치가 실행 및 실패의 이력 등의 정보를 확인해야 하기에 필요 반듯이 필요할 것이다.

spring-batch-core에 Meta-Dat Table들의 스키마를 DBMS별 schema-{DBMS}.sql 파일들이 포함되어 있다.
(IDE에서 schema-로 시작하는 파일들을 찾아 보면 나올 것이다.)

여기에서는 MySQL의 기준으로 Table Create문을 확익해 보도록 하겠다. MySql 스키마 파일은 schema-mysql.sql이다.
(참고로, MySql에서는 sequence가 존재하지 않기에 Sequense 역할을 하기 위한 Table도 만들어야 한다.)

BATCH_JOB_INSTANCE

BATCH_JOB_INSTANCE 테이블에는 JobInstance에 관련된 모든 정보가 포함되어 있다. 또한 해당 Table은 전체 계층 구조의 최상위 역할을 한다.

CREATE TABLE BATCH_JOB_INSTANCE  (
	JOB_INSTANCE_ID BIGINT  NOT NULL PRIMARY KEY ,
	VERSION BIGINT ,
	JOB_NAME VARCHAR(100) NOT NULL,
	JOB_KEY VARCHAR(32) NOT NULL,
	constraint JOB_INST_UN unique (JOB_NAME, JOB_KEY)
) ENGINE=InnoDB;

BATCH_JOB_INSTANCE의 Primary Key는 BATCH_JOB_SEQ에 의해 생성된다.

CREATE TABLE BATCH_JOB_SEQ (
	ID BIGINT NOT NULL,
	UNIQUE_KEY CHAR(1) NOT NULL,
	constraint UNIQUE_KEY_UN unique (UNIQUE_KEY)
) ENGINE=InnoDB;

INSERT INTO BATCH_JOB_SEQ (ID, UNIQUE_KEY) select * from (select 0 as ID, '0' as UNIQUE_KEY) as tmp where not exists(select * from BATCH_JOB_SEQ);

BATCH_JOB_EXECUTION

BATCH_JOB_EXECUTION테이블에는 JobExcution에 관련된 모든 정보를 저장하고 있다. JobExcution은 JobInstance가 실행 될 때마다 시작시간, 종료시간, 종료코드 등 다양한 정보를 가지고 있다

CREATE TABLE BATCH_JOB_EXECUTION  (
	JOB_EXECUTION_ID BIGINT  NOT NULL PRIMARY KEY ,
	VERSION BIGINT  ,
	JOB_INSTANCE_ID BIGINT NOT NULL,
	CREATE_TIME DATETIME(6) NOT NULL,
	START_TIME DATETIME(6) DEFAULT NULL ,
	END_TIME DATETIME(6) DEFAULT NULL ,
	STATUS VARCHAR(10) ,
	EXIT_CODE VARCHAR(2500) ,
	EXIT_MESSAGE VARCHAR(2500) ,
	LAST_UPDATED DATETIME(6),
	JOB_CONFIGURATION_LOCATION VARCHAR(2500) NULL,
	constraint JOB_INST_EXEC_FK foreign key (JOB_INSTANCE_ID)
	references BATCH_JOB_INSTANCE(JOB_INSTANCE_ID)
) ENGINE=InnoDB;

BATCH_JOB_EXECUTION의 Primary Key는 BATCH_JOB_EXECUTION_SEQ에 의해 생성된다.

CREATE TABLE BATCH_JOB_EXECUTION_SEQ (
	ID BIGINT NOT NULL,
	UNIQUE_KEY CHAR(1) NOT NULL,
	constraint UNIQUE_KEY_UN unique (UNIQUE_KEY)
) ENGINE=InnoDB;

INSERT INTO BATCH_JOB_EXECUTION_SEQ (ID, UNIQUE_KEY) select * from (select 0 as ID, '0' as UNIQUE_KEY) as tmp where not exists(select * from BATCH_JOB_EXECUTION_SEQ);

BATCH_JOB_EXECUTION_PARAMS

BATCH_JOB_EXECUTION_PARAMS 테이블에는 Job을 실행 시킬 때 사용했던 JobParameters에 대한 정보를 저장하고 있다.

CREATE TABLE BATCH_JOB_EXECUTION_PARAMS  (
	JOB_EXECUTION_ID BIGINT NOT NULL ,
	TYPE_CD VARCHAR(6) NOT NULL ,
	KEY_NAME VARCHAR(100) NOT NULL ,
	STRING_VAL VARCHAR(250) ,
	DATE_VAL DATETIME(6) DEFAULT NULL ,
	LONG_VAL BIGINT ,
	DOUBLE_VAL DOUBLE PRECISION ,
	IDENTIFYING CHAR(1) NOT NULL ,
	constraint JOB_EXEC_PARAMS_FK foreign key (JOB_EXECUTION_ID)
	references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
) ENGINE=InnoDB;

BATCH_STEP_EXECUTION

BATCH_JOB_EXECUTION테이블에는 StepExecution에 대한 정보를 저장하고 있다. BATCH_JOB_EXECUTION 테이블과 여러 면에서 유사하며 STEP을 EXECUTION 정보인 읽은 수, 커밋 수, 스킵 수 등 다양한 정보를 추가로 담고 있다.

CREATE TABLE BATCH_STEP_EXECUTION  (
	STEP_EXECUTION_ID BIGINT  NOT NULL PRIMARY KEY ,
	VERSION BIGINT NOT NULL,
	STEP_NAME VARCHAR(100) NOT NULL,
	JOB_EXECUTION_ID BIGINT NOT NULL,
	START_TIME DATETIME(6) NOT NULL ,
	END_TIME DATETIME(6) DEFAULT NULL ,
	STATUS VARCHAR(10) ,
	COMMIT_COUNT BIGINT ,
	READ_COUNT BIGINT ,
	FILTER_COUNT BIGINT ,
	WRITE_COUNT BIGINT ,
	READ_SKIP_COUNT BIGINT ,
	WRITE_SKIP_COUNT BIGINT ,
	PROCESS_SKIP_COUNT BIGINT ,
	ROLLBACK_COUNT BIGINT ,
	EXIT_CODE VARCHAR(2500) ,
	EXIT_MESSAGE VARCHAR(2500) ,
	LAST_UPDATED DATETIME(6),
	constraint JOB_EXEC_STEP_FK foreign key (JOB_EXECUTION_ID)
	references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
) ENGINE=InnoDB;

BATCH_STEP_EXECUTION의 Primary Key는 BATCH_STEP_EXECUTION_SEQ에 의해 생성된다.

CREATE TABLE BATCH_STEP_EXECUTION_SEQ (
	ID BIGINT NOT NULL,
	UNIQUE_KEY CHAR(1) NOT NULL,
	constraint UNIQUE_KEY_UN unique (UNIQUE_KEY)
) ENGINE=InnoDB;

INSERT INTO BATCH_STEP_EXECUTION_SEQ (ID, UNIQUE_KEY) select * from (select 0 as ID, '0' as UNIQUE_KEY) as tmp where not exists(select * from BATCH_STEP_EXECUTION_SEQ);

BATCH_JOB_EXECUTION_CONTEXT

BATCH_JOB_EXECUTION_CONTEXT테이블에는 JobExecution의ExecutionContext 정보가 들어있다.이 ExecutionContext 데이터는 일반적으로 JobInstance가 실패 시 중단된 위치에서 다시 시작할 수 있는 정보를 저장하고 있다.

CREATE TABLE BATCH_STEP_EXECUTION_CONTEXT  (
	STEP_EXECUTION_ID BIGINT NOT NULL PRIMARY KEY,
	SHORT_CONTEXT VARCHAR(2500) NOT NULL,
	SERIALIZED_CONTEXT TEXT ,
	constraint STEP_EXEC_CTX_FK foreign key (STEP_EXECUTION_ID)
	references BATCH_STEP_EXECUTION(STEP_EXECUTION_ID)
) ENGINE=InnoDB;

BATCH_STEP_EXECUTION_CONTEXT

BATCH_STEP_EXECUTION_CONTEXT테이블에는 StepExecution의 ExecutionContext 정보가 들어있다. 이 ExecutionContext 데이터는 일반적으로 JobInstance가 실패 시 중단된 위치에서 다시 시작할 수 있는 정보를 저장하고 있다.

CREATE TABLE BATCH_JOB_EXECUTION_CONTEXT  (
	JOB_EXECUTION_ID BIGINT NOT NULL PRIMARY KEY,
	SHORT_CONTEXT VARCHAR(2500) NOT NULL,
	SERIALIZED_CONTEXT TEXT ,
	constraint JOB_EXEC_CTX_FK foreign key (JOB_EXECUTION_ID)
	references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
) ENGINE=InnoDB;