BLADE: 자기지시(Self-Instruct) 기반 합성 데이터로 구축한 블록체인 도메인 LLM 평가 벤치마크
BLADE: A Self-Instruct Synthetic Benchmark for Evaluating LLMs in the Blockchain Domain
Article information
Abstract
대규모 언어 모델(Large Language Model)은 여러 도메인에서 인상적인 성능을 보이고 있으나, 블록체인과 같은 전문 분야에 대한 깊이 있는 이해도를 체계적으로 평가할 수 있는 벤치마크가 부족한 실정이다. 본 연구는 자기지시 기반 데이터 생성기법(Self-Instruct)을 블록체인 도메인에 맞게 확장하여 BLADE(Blockchain Large Language model Assessment Dataset for Evaluation)라는 블록체인 도메인 LLM 이해도 평가를 위한 포괄적인 벤치마크 데이터셋을 제안한다. BLADE는 블록체인 지식의 체계적인 분류에 따라 구성된 총 1,382개의 문항을 포함하며, 15개 대분류 및 대분류별 5개의 하위 카테고리로 구성된 상세한 목차 구조로 되어 있다. 이 벤치마크는 블록체인 기초부터 합의 메커니즘, 블록체인 아키텍처, 스마트 컨트랙트, 토큰 이코노미, 탈중앙화 금융(Decentralized Finance, DeFi), NFT(Non-Fungible Token) 및 디지털 자산, 블록체인 보안, 블록체인 거버넌스, 실제 응용 사례 등 블록체인 지식의 전체 스펙트럼을 포괄한다. 본 연구는 GPT-4.5의 도메인 지식을 활용한 구체적인 벤치마크 생성 절차를 제안했으며, 이를 통해 전문가가 검증한 시드 문항으로부터 다양한 난이도와 유형의 고품질 평가 문항을 생성하였다. Qwen, DeepSeek, Kanana 등 다양한 오픈소스 LLM에 대한 BLADE 평가 결과, 현재 모델들이 블록체인 이해도에서 상당한 차이를 보이며 Qwen2.5-7B-Instruct-1M이 가장 높은 성능을 보였다. BLADE 벤치마크는 LLM의 블록체인 이해도를 정밀하게 평가하고 개선하기 위한 도구를 제공함으로써, AI와 블록체인 기술의 효과적인 융합을 촉진하고 더 신뢰할 수 있는 탈중앙화 시스템 개발에 기여할 것이다.
Trans Abstract
Although Large Language Models (LLM) have shown impressive performance across various domains, there is a shortage of benchmarks for systematically evaluating their in-depth understanding of specialized fields such as blockchain. This study extends the Self-Instruct methodology to introduce BLADE (Blockchain Large Language model Assessment Dataset for Evaluation), a comprehensive benchmark dataset for assessing LLM comprehension in the blockchain domain. BLADE consists of a total of 1,382 questions organized according to a systematic classification of blockchain knowledge, featuring a detailed structure with 15 main categories and 5 sub-categories for each. The benchmark covers the entire spectrum of blockchain knowledge, from its fundamentals to consensus mechanisms, architecture, smart contracts, token economy, Decentralized Finance (DeFi), NFT(Non-Fungible Token)s and digital assets, security, governance, and real-world application cases. In this research, we present a benchmark generation methodology utilizing the domain knowledge of GPT-4.5, which allowed us to create high-quality evaluation items of varying difficulty and types from expert-verified seed questions. The evaluation results of various open-source LLMs, including Qwen, DeepSeek, and Kanana, on BLADE showed that current models exhibit significant differences in their understanding of blockchain, with Qwen2.5-7B-Instruct-1M achieving the highest performance. The BLADE benchmark provides a tool for precisely evaluating and improving the blockchain comprehension of LLMs, thereby promoting the effective fusion of AI and blockchain technology and contributing to the development of more reliable decentralized systems.
서론
블록체인 기술은 금융, 공급망, 의료, 디지털 자산 등 다양한 산업 분야에서 혁신적인 변화를 이끌고 있다(Nakamoto, 2008). 동시에 대규모 언어 모델은 자연어 처리와 생성 능력에서 혁명적인 발전을 이루며, 복잡한 도메인 지식을 이해하고 활용하는 능력을 보여주고 있다(Brown et al., 2020). 이러한 두 기술의 교차점에서 LLM을 블록체인 개발, 교육, 분석에 효과적으로 활용하기 위해서는 모델이 블록체인 도메인을 얼마나 정확하게 이해하고 있는지 평가할 수 있는 체계적인 방법이 필요하다.
그러나 현재까지 블록체인 도메인에 특화된 LLM 평가 벤치마크는 매우 제한적이다(Wang et al., 2023a). 기존의 LLM 평가 프레임워크는 주로 일반적인 언어 이해, 추론 능력, 수학적 문제 해결 등에 초점을 맞추고 있으며(Hendrycks et al., 2021b), 전문적인 기술 도메인, 특히 블록체인과 같은 복합적이고 빠르게 발전하는 분야에 대한 이해도를 측정하는 데는 한계가 있다.
블록체인 벤치마크의 중요성은 여러 측면에서 강조된다. 우선 블록체인은 탈중앙화, 투명성, 보안성을 바탕으로 기존 중앙화된 시스템의 한계를 극복하는 혁신적인 패러다임을 제시하는데, LLM이 이러한 근본적인 가치와 원칙을 정확히 이해하지 못한다면 블록체인의 본질을 왜곡할 위험이 있다. 둘째로, 블록체인 기술은 점점 더 중요한 사회 인프라에 통합되고 있어, LLM의 부정확한 블록체인 지식은 이러한 핵심 시스템의 설계와 운영에 치명적일 수 있다. 셋째, 블록체인은 암호학, 분산 시스템, 게임 이론, 경제학 등 다양한 학문 분야가 융합된 복합적인 기술로, LLM의 융합적 지식 이해 능력을 측정하는 중요한 지표가 된다. 넷째, 블록체인 생태계의 지속적인 발전에 따라, LLM이 최신 트렌드와 기술적 변화를 얼마나 잘 따라가고 있는지 평가하는 것이 필수적이다. 마지막으로, 블록체인과 AI의 결합은 혁신적인 응용 가능성을 제시하며, 이를 위해서는 LLM의 정확한 블록체인 이해가 기반이 되어야 한다.
본 연구는 이러한 문제의식을 바탕으로 BLADE(Blockchain Large Language model Assessment Dataset for Evaluation)라는 블록체인 도메인 특화 벤치마크를 제안한다. BLADE는 Wang et al. (2023c)이 제안한 자기지시 기반 데이터 생성 기법에 기반한 응용 연구이다. 자기지시 기반 데이터 생성 기법은 언어 모델이 소수의 시드 지시문과 예시를 바탕으로 새로운 지시문과 입·출력 쌍을 스스로 생성하여, 인간 주석자에 대한 의존도를 줄이면서 대규모 데이터셋을 구축할 수 있도록 하는 방법론이다. 본 연구는 이 기본적 생성 프레임워크를 그대로 유지하되, 블록체인 지식 체계(15개 대분류 및 75개 소분류)에 맞춘 문항 구조 설계, 난이도 체계화, 품질 검증 절차를 추가함으로써, 블록체인 도메인에 특화된 LLM 평가 벤치마크로 응용·확장하였다.
BLADE는 블록체인의 핵심 개념부터 최신 기술 트렌드까지 포괄하는 15개 주요 카테고리와 각 카테고리별 5개 하위 카테고리, 그리고 각 하위 카테고리별 6개의 세부 항목으로 구성된 상세하고 체계적인 목차 구조를 기반으로 하며, 총 1,382개의 평가 문항을 포함한다. 이 벤치마크는 기초, 중급, 고급의 세 가지 난이도로 구분되어 LLM의 블록체인 지식을 다각적으로 평가할 수 있도록 설계되었다.
본 연구가 갖는 주요 기여는 다음과 같다:
1. 블록체인 도메인에 특화된 최초의 포괄적인 LLM 평가 벤치마크를 제안한다.
2. GPT-4.5의 도메인 지식을 활용한 혁신적인 벤치마크 생성 방법론을 개발하였다.
3. 다양한 LLM을 대상으로 블록체인 이해도를 평가하여 모델 간 성능 차이를 식별하였다.
4. BLADE 벤치마크와 관련 평가 도구를 오픈소스로 공개하여 연구 커뮤니티의 활용과 확장을 촉진한다. 본 논문에서는 공개될 데이터셋의 파일 구조, JSON 스키마, 평가 스크립트 구성을 구체적으로 기술하며, 실제 코드와 데이터는 내부 정제 및 라이선스 검토를 거친 후 GitHub 저장소를 통해 제공할 예정이다.
연구 재료 및 방법
1. LLM 평가 방법론
대규모 언어 모델(LLM)의 평가는 모델의 능력과 한계를 이해하고, 개선 방향을 설정하는 데 필수적이다. 초기의 LLM 평가는 주로 GLUE(Wang et al., 2018)과 SuperGLUE(Wang et al., 2019)와 같은 일반적인 자연어 이해 벤치마크에 집중되었다. 이후 MMLU(Hendrycks et al., 2021b)와 같은 보다 포괄적이고 다양한 작업을 포함하는 벤치마크가 등장하면서 LLM의 다각적 평가가 가능해졌다.
최근에는 LLM의 추론 능력, 지식 한계, 할루시네이션 경향 등을 평가하기 위한 특화된 벤치마크들이 개발되고 있다. Hendrycks et al. (2021a)의 MATH는 수학적 추론 능력을, Lin et al. (2022)의 TruthfulQA는 모델의 사실적 정확성을 평가한다. 그러나 이러한 일반적 벤치마크들은 블록체인과 같은 특정 전문 도메인의 깊이 있는 지식과 이해도를 평가하는 데 한계가 있다.
2. 도메인 특화 벤치마크
특정 전문 분야에 대한 LLM의 이해도를 평가하기 위한 도메인 특화 벤치마크 개발이 활발히 이루어지고 있다. MedQA(Jin et al., 2021), MedMCQA(Pal et al., 2022)와 같은 의학 분야 벤치마크는 의학적 지식과 추론 능력을 평가하며, LawBench(Zheng et al., 2023)는 법률 문서 해석과 법적 추론 능력을 측정한다. 금융 분야에서는 FinBen(Xie et al., 2023)이 금융 지식과 수치적 분석 능력을 평가한다.
이러한 도메인 특화 벤치마크의 공통적인 특징은 (1) 해당 분야의 전문 지식을 체계적으로 조직하고, (2) 다양한 난이도와 문제 유형을 포함하며, (3) 해당 분야의 실제 응용 맥락을 반영한다는 점이다. 그러나 블록체인 분야에서는 Wang et al. (2023a)의 소규모 실험을 제외하면, 체계적이고 포괄적인 평가 벤치마크가 부재한 상황이다.
3. AI를 활용한 벤치마크 생성
최근에는 AI 모델 자체를 활용하여 평가 데이터셋을 생성하는 접근법이 주목받고 있다. 특히 Wang et al. (2023c)은 소수의 시드 지시문과 언어 모델만으로 대규모 지시문 데이터셋을 구축하는 자기지시 기반 데이터 생성 기법을 제안하였다.
Perez et al. (2022)은 GPT-4를 활용하여 다양한 평가 데이터셋을 자동으로 생성하는 방법을 제안하였으며, Wang et al. (2023b)은 LLM을 활용한 자동 문제 생성 및 검증 파이프 라인을 개발하였다.
이러한 AI 기반 데이터셋 생성 방법은 전문가의 직접적인 참여 없이도 대규모 평가 데이터셋을 효율적으로 구축할 수 있는 가능성을 보여준다. 그러나 생성된 문항의 품질, 난이도 조절, 도메인 정확성 등을 보장하기 위한 추가적인 검증 메커니즘이 필요하다는 과제가 남아 있다(Li et al., 2023).
4. BLADE 벤치마크 설계 및 방법론
4.1 벤치마크 설계 원칙
BLADE 벤치마크는 다음과 같은 핵심 원칙을 바탕으로 설계되었다:
1. 포괄성: 블록체인의 기초 개념부터 최신 응용 사례까지 블록체인 도메인 전반을 포괄하는 문항 구성
2. 체계성: 명확한 카테고리와 난이도 구분을 통해 블록체인 지식을 체계적으로 평가
3. 다양성: 다양한 문제 유형과 맥락을 통해 LLM의 블록체인 이해도를 다각적으로 평가
4. 현실성: 실제 블록체인 개발, 분석, 응용 과정에서 마주하는 문제와 유사한 상황 반영
5. 확장성: 블록체인 기술의 발전에 따라 지속적으로 확장 가능한 벤치마크 구조 설계
이러한 원칙에 따라, BLADE는 15개 주요 카테고리와 각 카테고리별 5개 하위 카테고리, 그리고 각 하위 카테고리별 6개의 세부 항목으로 구성된 상세한 목차 구조를 바탕으로 설계되었다. 주요 카테고리는 다음과 같다:
1. 블록체인 기초
2. 합의 메커니즘
3. 블록체인 아키텍처
4. 스마트 컨트랙트
5. 토큰 이코노미
6. 탈중앙화 금융(DeFi)
7. NFT 및 디지털 자산
8. 블록체인 보안
9. 블록체인 거버넌스
10. 실제 응용 및 사례 연구
11. 블록체인 개발 환경 및 도구
12. 블록체인 규제 및 법적 측면
13. 블록체인 비즈니스 및 전략
14. 최신 블록체인 연구 동향
15. 블록체인 기술 실습 및 프로젝트
각 하위 카테고리는 더욱 구체적인 주제를 다루며, 예를 들어 ‘블록체인 기초’ 카테고리 내에는 ‘블록체인 정의 및 특성’, ‘분산 원장 기술의 원리’, ‘해시 함수와 암호학적 기초’, ‘블록 구조와 체인 형성 원리’, ‘공개키 암호화 및 디지털 서명’ 등의 하위 카테고리가 포함된다. 또한 각 하위 카테고리는 6개의 세부 항목으로 더 세분화되어, 해당 주제를 포괄적으로 다룰 수 있도록 구성되었다.
각 문항은 기초(basic), 중급(intermediate), 고급(advanced)의 세 가지 난이도로 구분되어 있으며, 문제 유형은 객관식, 주관식, 코드 분석, 사례 연구 등 다양하게 구성되었다.
4.2 GPT-4.5 기반 벤치마크 생성 방법론
BLADE 벤치마크의 구체적인 생성 절차는 자기지시 기반 데이터 생성 기법의 프레임워크를 블록체인 도메인에 맞게 변형한 것이다. 먼저 블록체인 전문가가 각 대분류·소분류·난이도에 해당하는 시드 문항을 설계한 뒤, 이를 JSON 형태로 구조화하여 GPT-4.5의 입력으로 사용하였다. 이후 GPT-4.5는 설계된 메타 프롬프트에 따라 객관식, 코드 분석, 사례 기반 문항을 자동 생성하였으며, 이렇게 생성된 문항은 블록체인 지식 체계(15개 대분류, 75개 소분류)에 맞게 재분류·필터링하여 최종 BLADE 벤치마크로 정제되었다.
4.2.1. 전문가 시드 문항 설계
첫 단계에서는 블록체인 도메인 전문가들이 각 하위 카테고리별로 ‘시드 문항’을 설계한다. 이 과정에서 해당 카테고리의 핵심 개념, 주요 난제, 최신 트렌드 등을 반영하는 대표적인 문항들을 개발한다. 시드 문항은 벤치마크의 전체적인 방향과 품질을 결정하는 기준점으로 작용한다.
각 시드 문항은 다음과 같은 구조화된 JSON(JavaScript Object Notation) 형식으로 표현되어, 자동화된 생성 및 검증 프로세스에서 활용될 수 있도록 하였다:
본 절에서 제시한 시드 문항 JSON 구조는 벤치마크 생성 단계에서 사용되는 내부 포맷이며, BLADE 데이터셋은 2.4.4절에서 설명하는 평가용 JSON Lines 포맷으로 정규화 된다.
4.2.2 메타 프롬프트 설계
두 번째 단계에서는 GPT-4.5를 활용하여 추가 문항을 생성하기 위한 ‘메타 프롬프트’를 설계한다. 메타 프롬프트는 시드 문항의 구조와 스타일을 분석하고, 해당 카테고리의 특성을 이해하여, 유사한 품질과 난이도의 새로운 문항을 생성할 수 있도록 지시하는 프롬프트이다.
자기지시 기반 데이터 생성 기법에 따라 설계된 메타 프롬프트는 다음과 같은 구조를 가진다:
메타 프롬프트는 도메인 컨텍스트, 문항 구조 가이드, 난이도 조절 지침, 다양성 요구사항, 정확성 검증 등의 구성요소를 포함하며, 블록체인의 각 하위 카테고리에 맞춰 세부적으로 조정된다.
4.2.3 체계적 문항 생성
세 번째 단계에서는 설계된 메타 프롬프트를 GPT-4.5에 입력하여 체계적으로 새로운 문항들을 생성한다. 이 과정은 각 하위 카테고리, 난이도, 문제 유형 별로 반복되며, 다음과 같은 세부 절차를 포함한다:
· 초기 배치 생성: 각 조합에 대해 다수의 문항 후보 생성
· 품질 필터링: 형식, 내용, 난이도 적합성 등 자동 평가
· 다양성 최적화: 중복 제거 및 다양한 관점 포함
· 균형 조정: 카테고리/난이도/유형 간 균형 유지
이 접근법의 핵심은 각 대분류·소분류·난이도 조합에 대해 전문가 시드 문항을 입력으로 사용하여 GPT-4.5가 다수의 후보 문항을 생성하고, 형식·난이도·내용 기준으로 자동 필터링과 균형 조정을 수행하는 것이다. 이러한 문항 생성 파이프라인은 자기지시 기반 데이터 생성 프레임워크의 전체 구조를 블록체인 도메인에 맞게 구체화한 것으로, 구체적인 생성·검증 규칙은 BLADE 벤치마크의 요구사항에 맞추어 재설계하였다.
예를 들어, ‘6. 탈중앙화 금융(DeFi)’ 대분류의 ‘6.2 유동성 공급 및 AMM’ 하위 카테고리에서 GPT-4.5를 통해 생성된 문항은 다음과 같다.
질문: “유동성 풀 기반 AMM에서 영구적 손실(impermanent loss)이 발생하는 주된 이유로 가장 적절한 것은 무엇인가?”
선택지:
(0) 유동성 풀이 항상 고정 비율의 토큰 쌍을 유지하기 때문
(1) 유동성 공급자가 예치한 토큰의 개수가 시간이 지남에 따라 감소하기 때문
(2) 외부 시장 가격과 풀 내 교환 비율의 차이로 인해 자산 가치가 변동하기 때문
(3) 스마트 컨트랙트 수수료가 누적되면서 보유 자산 가치가 희석되기 때문
정답: (2)
해설: “AMM 기반 유동성 풀에서는 자산 가격이 변동할 경우, 풀 내 토큰 비율이 외부 시장 가격과 다르게 조정되면서, 단순 보유에 비해 유동성 공급자의 포트폴리오 가치가 감소할 수 있다. 이를 영구적 손실(impermanent loss)이라 하며, 이는 풀 구조와 외부 가격 차이에서 기인한다.”
이와 같이 각 하위 카테고리·난이도 조합별로 GPT-4.5가 생성한 후보 문항을 확보한 뒤, 이후 단계에서 품질 기준 및 전문가 검증을 통해 최종 벤치마크에 포함할 문항을 선별하였다.
4.2.4 자동 품질 검증
네 번째 단계에서는 생성된 문항의 품질을 자동으로 검증하는 과정을 수행한다. 이를 위해 GPT-4.5 기반의 ‘검증 에이전트’를 개발하여 다음과 같은 측면을 평가하였다:
· 사실적 정확성: 블록체인 개념, 기술, 용어의 정확한 사용
· 난이도 적합성: 지정된 난이도에 맞는 복잡성과 지식 깊이
· 문제 명확성: 질문과 선택지의 명확성, 중의성 없는 표현
· 정답 유일성: 객관식 문항의 경우, 정답이 하나로 명확하게 구분됨
· 설명 충분성: 정답 설명의 명확성과 교육적 가치
품질 기준을 통과하지 못한 문항은 제외되거나 수정되어, 최종 벤치마크에는 고품질의 문항만이 포함되도록 하였다. 구체적으로, GPT-4.5를 통해 총 1,850개의 후보 문항을 생성한 후, 자동 품질 검증 단계를 통해 형식 오류, 난이도 불일치, 사실성 결함 등이 발견된 312개 문항(16.9%)을 1차로 제거하였다. 중복되거나 내용이 과도하게 유사한 문항 156개(8.4%)를 추가로 제외한 뒤, 최종적으로 1,382개 문항(전체 후보의 74.7%)이 BLADE 벤치마크에 포함되었다. 이 과정에서 GPT-4.5 기반 검증 에이전트는 각 문항에 대해 사실성, 명확성, 난이도 적합성에 대해 1~5점 척도로 내부 점수를 부여하고, 평균 4점 미만인 문항을 삭제 또는 수정 대상으로 분류하였다.
4.2.5 전문가 샘플링 검증
마지막 단계에서는 자동 검증을 통과한 문항 중 일부를 무작위로 추출하여 블록체인 전문가들의 수동 검증을 수행하였다. 이 과정은 생성된 벤치마크의 최종 품질을 보장하고, 자동 검증 시스템의 신뢰성을 평가하기 위한 것이다.
전문가 검증은 카테고리와 난이도를 층화 추출(stratified sampling) 방식으로 고려하여, 전체 문항 중 150개(대분류 15개 × 난이도 3단계 × 문항 3~4개)를 무작위 추출하는 방식으로 수행하였다. 블록체인 연구 및 실무 경험을 보유한 3인의 전문가가 각 문항에 대해 (1) 사실적 정확성, (2) 표현의 명확성, (3) 난이도 적절성, (4) 블록체인 도메인 적합성을 1~5점 Likert 척도로 독립 평가하였으며, 평균 4점 이상인 문항은 “수정 없이 승인”, 3점대 문항은 “경미한 수정 후 승인”, 2점 이하 문항은 “재작성 또는 폐기” 대상으로 분류하였다. 그 결과, 샘플링된 문항의 87.3%가 수정 없이 승인되었고, 9.3%는 용어 정제나 난이도 조정과 같은 경미한 수정 후 승인되었으며, 3.3%는 개념 혼동 또는 난이도 불일치로 인해 최종 벤치마크에서 제외되었다. 세 전문가 간 사실적 정확성 평가에 대한 Cohen’s kappa 계수는 0.79로, 높은 수준의 합치도를 보였다.
전문가 검증을 통과한 문항의 예시는 부록 A.1에 제시한 BLADE 문항 데이터 항목 예시와 같이 “GPT-4.5 자동 생성 및 블록체인 전문가 검증” 메타데이터로 표시하였다.
4.3 벤치마크 구성 및 특성
최종적으로 구축된 BLADE 벤치마크는 다음과 같은 특성을 가진다:
· 규모: 총 1,382개 문항
· 구조: 15개 대분류, 75개 소분류(대분류당 5개), 450개 세부 항목(소분류당 6개)
· 난이도 분포: 기초(40%), 중급(40%), 고급(20%)
· 문제 유형 분포: 객관식(60%), 주관식(20%), 코드 분석(10%), 사례 연구(10%)
· 평균 문항 길이: 질문 85.3단어, 정답 설명 110.7단어
· JSON 데이터 형식: 모든 문항은 표준화된 JSON 형식으로 저장
4.4 BLADE 데이터셋 및 평가 도구 구성
BLADE 벤치마크 데이터셋은 총 1,382개 문항으로 구성되며, 시드 문항 및 메타 프롬프트 기반 생성 과정을 통해 구축된 최종 문항들은 JSON Lines 형식의 단일 파일(items.jsonl)에 저장된다. 각 문항은 고유 ID(id), 대분류(category)와 소분류(subcategory), 난이도(difficulty), 문제 유형(question_type), 질문 본문(question), 선택지 목록(options, 객관식인 경우), 정답 인덱스(correct_option), 정답 해설(explanation) 등의 필드를 포함한다. 별도의 메타데이터 파일에는 15개 대분류와 75개 소분류로 구성된 블록체인 지식 체계의 계층 구조(category_hierarchy.json)와 문항 수, 난이도·문제 유형 분포 등의 통계 정보(metadata.json)가 정의되어 있다. 데이터 항목 예시는 부록 A.1~4에 제시하였다.
BLADE 벤치마크를 활용한 LLM 평가 실험은 세 가지 핵심 기능 Python 스크립트를 통해 동작한다. 먼저 run_inference.py는 각 문항의 ID와 함께 모델 이름(model), 선택된 보기 인덱스(chosen_option), 모델의 raw_output을 포함하는 predictions.jsonl 파일을 생성하며, 이 파일은 이후 score_multiple_choice.py가 정답과의 일치 여부를 판정하는 데 사용된다. score_multiple_choice.py는 저장된 응답과 정답을 비교하여 전체 정확도 및 카테고리·난이도별 세부 성능을 산출한다. 마지막으로 summarize_results.py는 여러 모델의 평가 결과를 집계하여 모델별 평균 점수와 정확도를 표 형태로 요약한다. 각 스크립트는 부록 A.5~7에 제시하였다.
이러한 구성을 통해 BLADE는 블록체인 지식의 전체 스펙트럼을 포괄하면서도 체계적인 평가가 가능한 벤치마크로 설계되었다.
연구 결과 및 고찰
1. 실험 설정
BLADE 벤치마크를 활용하여 다양한 오픈소스 LLM의 블록체인 이해도를 평가하였다. 평가 대상 모델로는 다음 6개의 모델을 선정하였다:
· DeepSeek-R1-Distill-Llama-8B
· DeepSeek-R1-Distill-Qwen-7B
· Qwen2.5-7B-Instruct
· Qwen2.5-7B-Instruct-1M
· Qwen2.5-Math-7B
· kanana-nano-2.1b-instruct
모델은 다음과 같은 기준에 따라 선정하였다. 첫째, 연구 및 상용 환경에서 자유롭게 활용 가능한 오픈소스/오픈웨이트 라이선스를 가지며, 내부 규정상 추가적인 계약 없이 연구 목적으로 사용할 수 있어야 한다. 둘째, 파라미터 규모가 2.1B~8B 수준의 비교적 경량 모델로, 단일 GPU 기반 실험 환경에서 BLADE 전체 1,382개 문항에 대한 반복 평가를 수행할 수 있어야 한다. 셋째, 한국어·중국어를 포함한 다국어 지원과 코드·수학 처리 능력을 갖추어 블록체인 기술 문서와 스마트 컨트랙트 코드를 다루기에 충분한 도메인 적합성을 보여야 한다. 넷째, 실제 오픈소스 생태계에서 활발히 활용되고 있는 모델 계열일 것이라는 실용적 기준을 적용하였다.
특히 Qwen, DeepSeek, kanana 계열 모델은 동아시아 지역에서 오픈소스 LLM 응용과 블록체인 관련 실험에 널리 활용되고 있어, 해당 생태계에서 실제로 사용되는 모델들의 상대적 블록체인 이해도를 비교한다는 측면에서 적합하다고 판단하였다. 따라서 본 연구의 실험 설정은 대표적인 소형·중형 오픈소스 모델들 중, 블록체인 및 아시아권 언어 환경에서 실질적으로 활용 가능한 후보군을 대상으로 한다는 점에 초점을 둔다.
모든 모델에 대해 표준화된 평가 프로토콜을 적용하였으며, 평균 평점(0-10점 척도)과 처리 시간을 평가 지표로 사용하였다. 평가는 벤치마크의 전체 1,382개 문항을 대상으로 수행되었다.
2. 실험 결과
2.1 전체 성능 비교
<Table 1>은 6개 모델의 BLADE 벤치마크 성능을 요약한 것이다. 실험 결과, Qwen2.5-7B-Instruct-1M이 7.85점으로 가장 높은 평균 평점을 보였으며, DeepSeek-R1-Distill-Qwen-7B가 7.60점으로 그 뒤를 이었다. 주목할 만한 점은 2.1B 파라미터의 kanana-nano-2.1b-instruct가 7.37점으로 비교적 작은 모델 크기에도 불구하고 높은 성능을 보인 것이다. 이는 모델 크기뿐만 아니라 학습 데이터의 품질과 학습 방법이 도메인 특화 이해도에 중요한 영향을 미친다는 것을 시사한다.
성능 편차 측면에서는 Qwen2.5-7B-Instruct가 2.25로 가장 낮은 표준편차를 보여 일관성 있는 성능을 나타냈으며, DeepSeek-R1-Distill-Llama-8B와 Qwen2.5-Math-7B는 각각 4.87과 4.38의 높은 표준편차를 보였다. 이는 이 모델들이 일부 블록체인 영역 내에서는 뛰어난 성능을 보이지만, 다른 영역에서는 성능이 크게 저하됨을 의미한다.
처리 시간 측면에서는 Qwen2.5-7B-Instruct-1M이 5.94초로 가장 빠른 성능을 보였으며, DeepSeek-R1-Distill-Qwen-7B는 192.48초로 가장 느린 처리 속도를 보였다. 이러한 성능 차이는 모델 아키텍처와 최적화 수준에 기인한 것으로 판단된다.
이러한 정량적 결과의 해석을 보완하기 위해, 3.2.5절에서는 실제 문항과 모델 응답 예시를 바탕으로 한 질적 비교 및 대표적인 성공·실패 사례를 추가로 분석하였다.
2.2 카테고리별 성능 분석
카테고리별 분석 결과, 모든 모델이 ‘블록체인 기초’(평균 7.2점)와 ‘NFT 및 디지털 자산’(평균 6.8점) 카테고리에서 상대적으로 높은 성능을 보인 반면, ‘합의 메커니즘’(평균 5.1점), ‘블록체인 아키텍처’(평균 5.4점), ‘블록체인 보안’(평균 5.5점) 카테고리에서는 대체로 낮은 성능을 보였다.
특히 ‘크로스체인 기술 및 인터블록체인 통신’ 하위 카테고리에서는 모든 모델이 4.5점 미만의 평점을 보여, 이 영역에 대한 LLM의 이해도가 부족함을 확인하였다. 이는 해당 기술이 상대적으로 최신이고 복잡하며, 학습 데이터에 충분히 포함되지 않았을 가능성을 시사한다.
2.3 난이도별 성능 분석
난이도별 분석에서는 모든 모델이 기초 난이도(평균 7.5점)에서 가장 높은 성능을 보였으며, 중급(평균 6.3점)과 고급(평균 4.8점) 난이도에서는 성능이 점진적으로 하락하는 경향을 보였다. 이는 LLM이 기본적인 블록체인 개념은 잘 이해하고 있으나, 복잡한 기술적 세부사항이나 응용에 대한 이해는 상대적으로 부족함을 나타낸다.
주목할 만한 점은 Qwen2.5-7B-Instruct-1M과 DeepSeek-R1-Distill-Qwen-7B는 고급 난이도에서도 각각 6.7점과 6.4점의 높은 성능을 유지한 반면, Qwen2.5-Math-7B와 DeepSeek-R1-Distill-Llama-8B는 고급 난이도에서 3.5점 이하로 크게 하락한 것이다. 이는 모델의 학습 데이터와 특화된 사전 훈련이 복잡한 도메인 지식 이해에 중요한 요소임을 시사한다.
2.4 응답 처리 시간 및 효율성 분석
처리 시간 분석 결과, 모델별로 상당한 차이가 나타났다. DeepSeek-R1-Distill-Qwen-7B는 평균 192.48초로 가장 긴 처리 시간을 보였으며, Qwen2.5-7B-Instruct-1M은 평균 5.94초로 가장 짧은 처리 시간을 기록했다. 특히 주목할 만한 점은 성능이 가장 높은 Qwen2.5-7B-Instruct-1M이 동시에 가장 빠른 처리 속도를 보였다는 것이다. 이는 해당 모델의 최적화 수준과 효율성이 뛰어남을 시사한다.
처리 시간과 성능을 종합적으로 고려할 때, Qwen2.5-7B-Instruct-1M이 가장 효율적인 모델로 판단된다. 반면, DeepSeek-R1-Distill-Qwen-7B는 높은 성능을 보이지만 처리 시간이 길어 실시간 응용에는 제한이 발생할 수 있다.
2.5 질적 비교: 대표 성공 및 실패 사례
앞선 절에서는 BLADE 벤치마크를 기반으로 한 정량적 평가 결과를 제시하였다. 본 절에서는 이러한 결과의 해석을 보완하기 위해, 일부 실제 문항과 모델 응답을 비교하는 질적 분석을 수행하였다. 특히 고급 난이도 문항과 카테고리별 성능 편차가 크게 나타난 영역을 중심으로, 대표적인 성공 및 실패 사례를 선별하였다.
(1) 스마트 컨트랙트 보안 문항에서의 성공·실패 사례
예를 들어, ‘4. 스마트 컨트랙트’ 카테고리의 ‘재진입 공격(Reentrancy Attack)’ 관련 고급 난이도 문항에 대해 다음과 같은 객관식 문제가 제시되었다.
질문: “스마트 컨트랙트에서 재진입 공격(Reentrancy Attack)이 발생하는 주요 원인으로 가장 적절한 것은 무엇인가?”
선택지:
(1) 외부 계약 호출 이후에 상태를 먼저 업데이트하기 때문
(2) 가스 비용이 충분하지 않아 트랜잭션이 롤백되기 때문
(3) 동일한 트랜잭션 내에서 동일 함수가 재귀적으로 호출되는 것을 EVM이 허용하기 때문
(4) 컨트랙트가 외부에서 전달되는 임의의 데이터를 검증 없이 저장하기 때문
정답: (1)
Qwen2.5-7B-Instruct-1M은 “외부 호출 이후에 상태를 업데이트하는 순서 오류로 인해, 공격자가 잔액 검증 이전에 반복적으로 출금을 시도할 수 있다”는 설명과 함께 (0)을 정답으로 선택하여, 재진입 공격의 핵심 원인(상태 업데이트 순서)에 대한 정확한 이해를 보여주었다. 반면, DeepSeek-R1-Distill-Llama-8B는 (3)을 선택하며 “외부 입력 검증 부재로 인한 취약점”이라는 일반적인 보안 설명을 제시하였으나, 이는 재진입 공격과 직접적으로 관련된 원인이라기보다는 입력 검증 취약점과 혼동한 것으로 볼 수 있다. 이러한 차이는 Table 1에서 DeepSeek-R1-Distill-Llama-8B가 전반적으로 낮은 평균 평점과 높은 표준편차를 보이는 이유 중 하나로, 특정 보안 개념에 대한 오개념이 실제 문항 수준에서 어떻게 나타나는지를 보여준다.
(2) DeFi 영역에서의 개념적 이해 차이
‘6. 탈중앙화 금융(DeFi)’ 카테고리의 ‘6.2 유동성 공급 및 AMM’ 하위 카테고리에서는, 앞서 2.4.2.3절에서 예시로 제시한 것과 유사한 “영구적 손실(impermanent loss)의 발생 원인”에 대한 객관식 문항이 포함된다. 해당 문항에서 Qwen2.5-7B-Instruct-1M은 “외부 시장 가격과 풀 내 교환 비율 간 괴리로 인해, 단순 보유에 비해 포트폴리오 가치가 감소하는 현상”이라는 설명과 함께 정답을 선택하였다. 반면, Qwen2.5-Math-7B는 “AMM에서 수수료 구조와 슬리피지로 인해 손실이 누적된다”는 식의 응답을 제시하며 수수료 메커니즘에 초점을 맞추어 오답을 선택하였다. 이는 Qwen2.5-Math-7B가 수식 처리와 수학적 추론에 특화되어 있음에도 불구하고, DeFi 고유의 금융·경제적 개념에 대해서는 학습 데이터의 한계로 인해 상대적으로 취약할 수 있음을 시사한다. 이러한 경향은 Qwen2.5-Math-7B가 전체 평균 평점에서 가장 낮은 성능을 보였고, 특히 DeFi 및 토큰 이코노미 관련 카테고리에서 점수가 크게 하락한 정량적 결과와도 일관된다.
(3) 크로스체인 기술 문항에서의 공통 실패 사례
카테고리별 분석에서 모든 모델이 ‘크로스체인 기술 및 인터블록체인 통신’ 하위 카테고리에서 4.5점 미만의 낮은 성능을 보였는데, 이는 실제 문항 수준에서도 공통적인 실패 패턴으로 나타났다. 예를 들어, “IBC(Inter-Blockchain Communication) 프로토콜에서 ‘light client’가 담당하는 역할”을 묻는 주관식 문항에 대해, Qwen2.5-7B-Instruct-1M과 DeepSeek-R1-Distill-Qwen-7B 모두 “체인 간 메시지 전달을 중계하는 노드”와 같이 light client와 relayer의 역할을 혼동하는 응답을 제시하였다. 일부 응답에서는 심지어 light client를 “새로운 블록을 생성하는 합의 노드”로 잘못 설명하는 등, 최신 크로스체인 인프라에 대한 개념적 이해 부족이 드러났다. 이러한 공통 실패 사례는 해당 영역의 낮은 정량 점수가 단순한 난이도 문제를 넘어, 학습 데이터에서 최신 크로스체인 프로토콜 정보가 충분히 반영되지 않았을 가능성을 뒷받침한다.
이와 같은 질적 분석 결과는, BLADE 벤치마크가 단순히 평균 점수 차이를 측정하는 도구를 넘어서, 블록체인 도메인 내에서 모델별 강점과 약점이 구체적으로 어디에서 드러나는지를 문항 수준에서 진단할 수 있는 수단으로 기능함을 보여준다.
3. 논의
BLADE 벤치마크를 통한 실험 결과는 현재 LLM들이 블록체인 도메인에 대한 이해도에서 상당한 차이를 보이며, 특히 합의 메커니즘, 크로스체인 기술, 블록체인 보안과 같은 전문 영역에서 공통적인 취약점을 가지고 있음을 보여준다. 이는 해당 영역들이 학습 데이터에 상대적으로 적게 표현되었거나, 개념적 복잡성이 높기 때문일 수 있다.
본 연구에서 활용한 GPT-4.5 기반 벤치마크 생성 절차는 기존 자기지시 기반 데이터 생성 기법을 블록체인 도메인에 적용한 것으로, 전문 도메인 평가 데이터셋을 효율적으로 구축할 수 있는 구체적인 구현 사례를 제공한다. 이 방법론은 블록체인 외에도 다양한 전문 분야 벤치마크 개발에 활용될 수 있으며, 오픈소스 AI 생태계에서 전문 도메인 평가 연구에 활용될 수 있다.
BLADE 벤치마크의 주요 장점은 다음과 같다:
1. 효율성: 소수의 전문가 시드 문항으로부터 대규모 고품질 데이터셋을 자동 생성
2. 다양성: 인간 주석자가 고려하지 못할 수 있는 다양한 시나리오와 문항 유형 포함
3. 확장성: 새로운 블록체인 기술 및 개념이 등장할 때마다 동일한 프로세스로 벤치마크 확장 가능
4. 도메인 적응성: 자기지시 기반 데이터 생성 기법을 다른 전문 도메인에도 쉽게 적용 가능
BLADE 벤치마크의 주요 한계점으로는 빠르게 발전하는 블록체인 생태계의 모든 측면을 완벽하게 포괄하지 못한다는 점, 객관식 및 주관식 평가가 실제 응용 능력을 완전히 반영하지 못할 수 있다는 점, 그리고 벤치마크 생성이 GPT-4.5의 블록체인 지식에 부분적으로 의존한다는 점 등이 있다. 또한 자기지시 기반 데이터 생성 기법 자체가 가지는 한계도 존재하는데, 생성 모델의 편향이나 오류가 생성된 데이터셋에 포함될 수 있으며, 이는 전문가 검증으로 완전히 해결되지 않을 수 있다.
한편, 본 연구의 실험 설정에는 모델 선정 측면의 제약도 있다. 평가 대상 모델이 주로 Qwen, DeepSeek, kanana 등 소형·중형 오픈소스 모델에 집중되어 있어, LLM 응용 연구에서 널리 활용되는 Meta LLaMA 3나 Mistral 7B와 같은 서구권 대표 모델을 포함하지 못하였다. 이는 BLADE 벤치마크의 구조적 한계라기보다는 단일 GPU 기반의 제한된 실험 자원과 기관 내부의 라이선스 검토 절차에 따른 실무적 제약에 기인한다. 따라서 본 논문의 실험 결과는 동아시아 계열 오픈소스 모델들의 상대적 블록체인 이해도 비교에 보다 초점을 두며, 향후 연구에서는 BLADE를 활용하여 보다 폭 넓은 모델 스펙트럼을 평가하는 것이 필요하다.
결론
본 연구는 대규모 언어 모델의 블록체인 도메인 이해도를 정량적으로 평가하기 위한 BLADE 벤치마크를 제안하였다. 기존에는 암호학, 경제학, 시스템 이론이 융합된 블록체인 도메인에서 LLM의 이해도를 평가할 기준이 부재하지만, BLADE는 블록체인 도메인에 특화된 LLM 평가 벤치마크로서 이러한 문제점을 해결한다. 특히, 대기업이나 금융권에서 데이터 유출 위험이 있는 폐쇄형 모델 대신 오픈소스 LLM의 성능 검증에 필수적인 기준을 제공한다.
본 연구는 기존 자기지시 기반 데이터 생성 기법의 프레임워크를 블록체인 도메인에 적용하여, 소수의 전문가 시드 문항과 GPT-4.5만으로도 대규모 평가 데이터셋을 구축할 수 있음을 실증하였다. 이 방법론은 다양한 시나리오와 문항 유형을 생성할 수 있으며, 이는 블록체인 외 의학, 법률, 금융 등 다른 복잡한 전문 도메인의 LLM 평가 벤치마크 구축에도 확장 가능성이 존재한다.
향후 연구 방향으로는 새로운 블록체인 기술 및 트렌드를 반영한 벤치마크 확장, 실제 응용 작업을 시뮬레이션하는 평가 방법 개발, BLADE를 활용한 블록체인 특화 LLM 미세 조정, 멀티모달 확장, 그리고 다른 도메인으로의 적용 등이 고려될 수 있다.
References
Appendices
A. BLADE 평가 도구 데이터 예시 및 Python 스크립트
• A.1. BLADE 문항 데이터 항목 예시(items.jsonl)
• A.2. 모델 응답 데이터 항목 예시(predictions.jsonl)
• A.3. 카테고리 계층 구조 예시(category_hierarchy.json)
• A.4. 메타데이터 예시(metadata.json)
• A.5. 문항 추론 스크립트(run_inference.py)
• A.6. 객관식 평가 스크립트(score_multiple_choice.py)
• A.7. 결과 요약 스크립트(summarize_results.py)
jat-2025-00724-Appendix.pdf