h index (bibliometrics) by 바죠

트랙백:h index to quantify an individual's scientific research output

여러분을 bibliometrics의 세계로 초대합니다.
Bibliometrics is the study, or measurement, of texts and information.

얼마전 한겨레 [필진]에서 impact factor의 양면성을 잘 지적한 글이 있었습니다. 매우 훌륭한 분석이 있었다고 생각합니다. 사람들이 잘 모르는 부분을 잘 분석했다고 생각합니다.
http://incredible.egloos.com/2636186

본 블로그에서는 한창 인구에 회자되는 h index를 살펴 보았습니다. 이것은 허쉬박사가 PNAS에 발표하면서 알려지게 된 개념이다. 처음에는 '별짓'을 다한다는 평가를 받았지만, 최근에는 나름대로 좋은 평가를 넘어 널리 사용되고 있다.
http://en.wikipedia.org/wiki/H-index
연구자의 특성상, 그들은 대개 자신의 일이 매우 중요하다고 말한다. 일종의 선전이다. 우리는 결코 그들의 그런 자세를 욕할수는 없다. 문제는 객관적인 평가 자료이다. 한 학자의 평가는 논문을 통해서 여실히 보여진다. 적어도 여기에는 이견이 없을것으로 믿는다. 물론, 일부 학문에서는 논문보다 컨퍼런스 활동이 더욱 중요한 업적이 된다고 한다. 논문 발표 절차보다도 기술 개발 발전 속도가 빠른 분야도 있다.

자 그렇다면 어떻게 해야 공정하게 한 학자의 영향력을 평가할 수 있을까? (사실, 허쉬 박사는 노벨상 받지 않은 우리들 끼리 어떻게 학문적 영향력을 평가 할 수 있을까? 한번 비교해 보자는 뭐 그런뜻으로 인트로덕션을 작성했다.)여기에서는 물리학에 국한한 이야기를 하도록 한다. 혹자는 Nature, Science, Cell 등에 논문을 내었다고 그야말로 모든것을 다 이룬것처럼 행동하기도 한다. 물론, 그 자체를 욕하자는 것이 아니다. 문제는 남들의 평가이다. 꾸준히 인용되는 논문이야 말로 진정한 의미에서 좋은 논문일것이다. 사실, 유력지에 발표해야 많이 인용되는것도 사실이다. 최근에 한국에서, 상을 줄 때(스타패컬티 선정) 학자들의 총피인용횟수를 기준으로 제시한적이 있었다. 총발표 논문수로 하는것보다는 엄청나게 진일보한 행태임에 틀림없다. 당연히 그렇게 했었어야 한다. 왜냐하면 실제로 '먹히는' 논문을 발표한 사람들을 잘 골랐다고 볼 수 있기 때문이다. http://incredible.egloos.com/2085455

정부기관에서 연구비 신청할 때, 대표 논문을 내라고 말하고, 주저자 표시, 발표저널의 impact factor를 표시하라고 한다. 글세, 이것 보다는 차라리 대표 논문의 피인용수를 적어서 내라고 말하면 어떻까? 해당 저널이 이것을 올리기 위해서 '장난'도 친다. impact factor는 시간에 따라서 계속 바뀐다. 한계레 [필진]에서 조사한것 처럼 impact factor는 해당 저널의 상위 몇 퍼센트 우수 논문들에 의해서 정해지는 특성이 있다. 상위 25 %가 89 % 를 먹여 살리는 것이다. 우수 임팩트 팩터를 자랑하는 저널에 발표된것만으로는 부족할 수도 있다는 말씀이다. 그것 보다는 그냥 피인용수로 하면 된다. 좀더 악의적으로 표현한다면 아래와 같다. 많은 경우, 상위 25 %에 들어가지도 않았으면서 임팩트 팩터의 신용도 89 %를 자기 마음대로 가져가는 행동하고 다닌다는 것이다. 제안서, 제안자 발표할 때, 이렇게 발표를 한다. 듣는 사람 매우 난감하다. 피인용수로 하면 이런 문제를 해결할 수 있다. 심지어 저널의 신용도를 깍아 먹은 논문인지도 알 수 있다. 선택과 집중을 표방하는 정부의 아이디어는 임팩트 팩터를 중시하는 기준에서 허무하게 무너질 수 있다. 물론, 단기간의 업적을 평가할 때는 좋은 저널에 발표한 사람을 높이 살 수밖에 없는 상황이 전개된다. 평가를 할 수 있는 데이터 수집 기간이 짧을 경우에 그렇다.

h index : 각 논문당 피인용회수가 h 이상인 논문들의 수가 h 일 때, 그 학자의 h index는 h가 된다. 나머지 다른 논문들은 h 보다 작은 피인용횟수를 기록한다.
일반으로, h index가 높은 학자일수록 학계에 영향력이 있는 학자라고 말할 수 있다.

실전에서는 통상 엑셀 파일을 활용한다. 각 논문의 저자, 년도, 볼륨, 페이지, 저널명 등을 사용하여 분류한다. 그 다음 각 논문의 피인용수를 적어둔다. 피인용수를 sorting 하면 쉽게 알 수 있다. x 축은 "ordered papers", y 축은 "citations"라고 표시하여 엑셀 파일에서 그림을 그리면 된다. 전체적으로 하나의 감소함수 y=y(x) 가 나올것이다. 이 그래프로 부터 citations과 ordered papers가 동일한 값으로 결정되는 상황에서 그 학자의 h 는 결정된다. 논문을 피인용 횟수로 정렬했다는 뜻이다. 피인용수가 가장 높은 논문이 x 축상에서 x=1에 해당한다. 이 때 y 값은 그 논문의 피인용수이다. 두 번째로 많이 인용된 논문은 x=2에 해당하고 해당 인용수는 y축의 값으로 표시된다. 두 번쨰로 많이 인용된 논문의 인용수 y=y(x)=y(2)가 되는 것이다. 논문의 수가 많아야 하고 각 논문이 좋은 인용횟수를 확보해야만 지수가 높아진다. 발표한 논문 중에서 각 논문당 20회 이상 인용받는 논문의 수가 20편이면 그 학자의 h index = h = 20 이 된다.

h index는 연구자 임용, 승진, 상, 연구비 경쟁, 연구역량 평가 등에 사용될 수 있다.
넓은 영역에서의 연구자의 영향력을 평가하는 잣대로 사용할수 있다.
cf. 총피인용횟수, 총논문수, 논문당 평균 피인용수

국가입장에서도 안정적으로 좋은 논문을 생산할 수 있는 연구자에게 연구비를 투자하는것이 현명한 판단이라고 생각한다. 이러한 지수 놀이에 신물난 사람들도 많이 있을것이다. 세상사 늘 그렇듯이 여기에도 반론이 많이 있을것이다. 하지만, Imfact Factor를 가지고 노는것 보다는 상황이 좋을 수 있다. 보다 객관적일 수 있다는 이야기이다. 과거 경험으로 미루어 봤을 때, 무슨 상, 무슨 상 수여할 때마다, 말이 많았다. 모두다 한마디씩했다. 저것은 아닌데. 뭐 이런식이다.

h index (저자의 이니셜이 H라서 그렇게 한것인가?)도 하나의 평가 기준이 될 수 있다. 이는 논문의 양과 질(피인용횟수)을 동시에 따지겠다는 의도로 볼 수 있다. "논문 발표량"과 "각 논문의 피인용횟수" 중에서 둘다 고려하지만 "약한 부분"에서 멈추어서 나타내는 것이다. 질좋은 논문의 수를 따지자 라는 것이다. 좋은 논문 한 편으로 평가받는 것이 아니다. 논문을 많이 발표한다고 해서 좋게 평가 받는것이 아니다. 인용많이 받는 좋은 논문을 많이 발표한 사람이 좋은 평가를 받게한 지수라고 볼 수 있다.

h index, 몇가지 일반적인 성질들:
학자의 인생을 통해서, 꾸준히 좋은 논문들을 많이 계속 발표한 사람이 유리하다. '인생 한방'이라고 생각하는 사람들에게는 매우 불리한 인덱스이다. 매우 젊은 학자들에게는 적용하기가 부담스럽다. 학생입장에서도 h index가 높은 지도 교수를 선택하는 것이 자신의 학자적 커리어를 만들어 가는데 있어서 안정적으로 유리하다. 특정 수준이상의 과학적 출력물이 예측되기 때문이다. 공저자들이 많을 경우, 이들에 대한 배분은 전혀 고려하지 못하고 있다.

경험적으로, h제곱 에 비례하는 값이 해당 학자의 총 피인용횟수가 된다. 통상적으로 3-5 정도의 비례상수를 가지는것이 일반적이다. Nc(총피인용횟수) ~ a x h x h, 즉 h제곱에 비례한다. 비례상수, a는 연구자에 따라 다르다.
(a= 3-5; 경험치, 연구자에 따라서 다른값이 된다.)

h index는 연구 연구가 증가할 수 있어도 감소하지는 않는다. 공든탑이 무너지지 않듯이, 한 학자의 h index는 시간에 따라서 감소하지 않는다. 최소한 현상 유지는 하게 되어 있다.

아주 특별히 많이 인용되는 논문들은 h index에 반영이 안된다. (그래서 나온것이 hbar이다.)
아주 저조하게 인용되는 논문들은 h index에 전혀 반영이 안된다. 그런것들은 무시하자는 것이 h index 도입의도이다.
저조한 수준에서 인용되는 논문들은 h index에 전혀 기여하지 못한다. 사실, 영향력이 약한 논문의 인용 패턴을 보면 특정 시기에 인용되고 그 다음은 인용되지 않는다는 특징이 있다.
self-citation에 대한 민감도: 총피인용수에서 보다도 h 값 계산에서는 self-citation에 덜 민감하게 반응한다. self-citation이, 물론, h 값을 증가 시킨다.

너무나도 당연하게(오래동안 연구를 쉬지 않는 한) h 값은 해당 연구자의 연구 연수에 비례한다. 이 때 기울기 값, m을 환산할 수 있다. 일종의 d h/d n인데, 이것 높은 학자일수록 고수이다. 연구 연수가 다른 학자들을 비교할 때 유용하게 사용될 수 있다. 재능을 가진 매우 뛰어난 학자들의 경우, 젊은 나이에도 '스타'로서 학계에 영향을 미칠 수 있다.

h = mn (m : 기울기, n: 연구 연수=첫 논문이 발표되고 현재까지 경과한 연구 연수) (m의 정의)
m ~ 1 : successful (20년 연구에 h=20)
m ~ 2 : outstanding (h=40, 20년 연구에)
m ~ 3 : truly unique (h=60, 20년 연구에; h=90, 30년 연구에), 물론, 위의 평가는 절대적인 것이 아니다. 왜냐하면 편차가 있기 때문이다.
Witten, m=3.89; Heeger, m=2.38; Cohen, m=2.24; Gossard, m=2.09; Anderson, m=1.88; Weinberg, m=1.76; Fisher, m=1.91; Cardona, m= 1.87; deGennes, m=1.75

두 학자(거의 나이가 같고, 같은 분야, 정교수, 둘다 노벨상 수상자 아님.)가 공히 h=54를 기록하고 있다. 하지만, 한 학자는 대단히 많이 인용되는 한편의 논문을 가지는 경우가 있다. 피인용횟수에서 10배 이상의 차이가 나는 논문이 있는 경우. 이 때는 hbar를 이용하면 h 값이, 두 학자에 대해 hbar=102, hbar=76로 각각 분리된다. 즉, 거의 같은 h index 를 가지고 있어도 hbar를 이용하면 인용횟수가 앞도적으로 많은 한편의 논문을 가진 학자를 구별해 낼 수도 있다.

hbar = sqrt(alpha/2),
alpha =sum c(p) = Nc, c(p) : the number of citations of paper p
hbar는 최고로 많이 cite된 논문, 중급수준으로 cite된 논문들의 영향력을 반영한다. h 계산에서 무시될 수 있는 양들이다. 대개의 경우 좋은 물리학자들은 좋은 논문도 많으면서, 매우 중요한 일 (큰 일)도 있기 마련이다. 이러한 경우, h 값으로는 두각을 나타내지 못할 수도 있다. 하지만, hbar를 사용하면 이러한 인물들을 쉽게 잡아 낼수가 있다. 노벨상처럼 단일 논문에 의한 특출난 성과가 있어야하는 경우, hbar를 이용하면 그 효과를 쉽게 찾아볼 수 있을것이다.



물리학자들:
미국 대학 물리학과: 아래의 평가는 편차가 있기 때문에 절대적 기준이 될 수 없다.
공저자들의 기여도가 전혀 고려되어 있지 않다.
major univ. faculty (associate prof.): h= 12
full prof. : h= 18
APS fellowship h=15-20
National Academy of Sciences USA 회원: h= 45 이상

한 마디로 대단한 물리학자들, 초절정 고수들의 h index, hbar index 한번 봅시다. 이들의 논문의 질과 양에 의한 체감 영향력은 막강 그 자체이다. h index는, 물리학 분야, 최고수가 110 정도에 머무르고 있다. 엄청나게 축퇴되어 있는 지수임에 틀림없다. 즉, 총피인용횟수의 sqrt(Nc)에 비례한다. h index 한 단계 한 단계 올리는것이 그렇게 만만한 일이 아니다.
(h index, hbar index)
E. Witten (112, 163)
P. W. Anderson (96, 164)
S. Weinberg (89,139)
J. N. Bahcall (77,102)
D. J. Scalapino (76,95)
S. G. Louie (76,97)
R. Jackiw (69,106)
C. Vafa (67,82)
D. J. Gross (67,106)
S. W. Hawking (62,98)

(h index)
A. J. Heeger (107)
M. L. Cohen (94)
A. C. Gossard (94)
M. E. Fisher (88)
M. Cardona (86)
P. G. deGennes (79)
Z. Fisk (75)
G. Parisi (73)
F. Wilczek (68)
M. B. Maple (66)
M. S. Dresselhaus (62)

지난 20년간 노벨 물리학상 수상자들:
평균 h = 41, 표준편차=15,
평균 m = 1.14, 표준편차=0.47

h index 40 정도 되는 학자들을 많이 육성하면 한국에서도 충분히 노벨 물리학상 가능하다고 본다. 실제, 한국에도 40 이상인 학자들 많이 있다. 한국의 문제는 이러한 우수한 학자들의 수가 절대 부족이라는 것이다. 많은 학자들이 40이상의 h index를 확보하고 있어야한다. 그리고 거의 매년, 늘, 항상, 노벨상 후보에 끼어 있어야 상을 탈 수 있다.



Phys. Rev. B, J. Chem. Phys., Appl. Phys. Lett. 등은 기존의 IF체제에서 평가하는 대신, h index를 이용하여 평가할 경우 좋은 저널 (논문의 질, 물량에 의한 영향력)로 평가 받을 수 있다. 논문을 구독하는 입장에서도 질과 양에 의해서 좋은 평가를 받는 논문을 구독하는것이 더 좋을것이다.

학자 한명의 과학적 업적을 평가 할 수 있는 h index는 같은 방식으로 각종 저널들의 영향력을 측정하는 하나의 방법으로도 활용될 수 있다. 여전히, impact factor로 노는것 보다 h index로 노는것이 유리하다는 것을 알 수 있다.
Nature, Science, Cell, PNAS, Phys. Rev. Lett., JACS 등의 저널들은 어찌되었건간에 좋은 저널이다.

관련 논문들:
pnas16569_H_index.pdf
0608183.pdf
참고 페이지:
http://www.nature.com/nature/journal/v436/n7053/full/436900a.html

cf.
SPIRES 데이터에서는 논문의 인용정도에 따라서 아래와 같이 분류하는데 아주 인상적이다.

Renowned paper(500+)
Famous paper(250-499)
Well-known paper(100-249)
Known paper(50-99)
Less known paper(1-9)
Unknown paper(0)

cf.
h index가 좋은것이 아니다. 숫자로 평가할 수 없다. 부적절한 면이 있다.
anti_h_index.pdf

cf.
분야별로 조심해서 사용해야 한다. 분야별 가중치 도입
0607224.pdf


2005년 각종 저널 Impact Factor
jcr2005_if(1).xls

jcr_2005_ver.xls


g-index 의 정의: g_index.pdf

h index와 g index를 계산하는 방법 (그림으로 소개)

g >= h의 관계가 항상 성립한다.

h 의 경우 논문의 인용횟수에 의해서 멈추고, g 의 경우 좋은 논문들의 총인용횟수에서 멈춘다.

r: 논문의 번호, 가장 많이 인용된 논문이 r=1, 두 번째로 많이 인용받은 논문 r=2

Egghe 논문에서 발췌:


h-b index: 학자가 아니라 과학적 연구주제에 대해서 h index 처럼 계산

http://en.wikipedia.org/wiki/H-b_index

 

------------------------------------------------------------------------------------------------------------------
2007/10/04

최신 IF
JCR2006_ScienceEdition.xls

----------------------------------
2005_Impact_Factor.pdf
2006_Impact_Factor.pdf
2007_Impact_Factor.pdf

SCI_JCR2007_IF1.xls


핑백

덧글

  • 키키 2006/08/20 22:20 # 답글

    동무들 각자 h, h bar 숫자를 밝히라우 !!
  • 바죠 2006/08/21 11:35 # 답글

    키키>> 시간이 좀걸리겠는데요. 조사를 해야합니다. 조사하면 다나오기도 하지요.
  • 도원 2006/08/24 20:49 # 답글

    도원/ h=7, m=1, h bar=6.1 이 나오는데, 대략 successful이지만, 미국 major 대학의 교수급은 안되는군요.
    한국 대학의 교수급은 되지 않을까? 근데 왜???
  • 바죠 2006/08/24 21:20 # 답글

    도원>> 위의 분류에 의하면 (물리학과 기준, 편차가 있어서 절대 기준이 안됨), m=1이기 때문에 successful 학자이시군요.
    h 가 fresh 한 연구자에게는 적용하기가 부담스럽습니다. h 가 나이에 따라서 감소하지 않는 특징 때문에 그렇습니다.
    한국 대학 교수에 대한 index는 잘 모르겠지만, 잘 알려져 있지 않지만, 미국 major 대학 기준보다는 설마 높지는 않겠지요. (추측)
    한국 대학 교수 임용의 다이나믹스가 h index만으로 될거라고는 생각하지 마십시요. 충분히 복잡한 다이나믹스가 있습니다. 지난날의 경험을 비추어 보았을 때.....
  • cortardo 2006/08/26 10:51 # 삭제 답글

    재미로 계산해 봤습니다. h=9, hbar~22.3, m~0.9
  • cortardo 2006/08/26 10:54 # 삭제 답글

    한 껀수하고 너무 오래 놀았다는게 다 뽀록나네요...?!?!?! ^^
  • 바죠 2006/08/26 13:37 # 답글

    cortardo >> 오랜만입니다. cortardo님께서는 h, hbar차이가 상당히 커신 경우이십니다. 경험상, 통상적인 경우는 아니시구요. 지적하셨듯이, h index의 특성상, 굉장히 잘팔리는 소수의 논문이 h index속으로 안들어올 수도 있습니다. 그래도, 총 citation은 굉장히 높으신 것 같습니다. 또 좋은 논문 발표하실 때가 되신것 같습니다. 기대하겠습니다. cortado 님 같으신 분들을 위해서, hbar가 필요한것입니다. h가 심하게 degenerate 되어 있을 수밖에 없습니다. 최고수:112에서 하수: 1까지 거의 111 등분으로 나타내다 보니 그럴수 있죠.
  • 키키 2006/09/02 18:23 # 답글

    다시 계산해보니, h=14, m=1, h bar=19, 남들의 좋은 논문에 너무 편승한 것일까 ??
  • 바죠 2006/09/03 07:43 # 답글

    키키>> m=1, successful 하시군요. 좋은 현상입니다. outstanding까지는 어떻게 안됩니까?
  • 바죠 2007/02/12 17:25 # 답글

    http://en.wikipedia.org/wiki/Impact_factor

    A = the number of times articles published in 2001-2 were cited in indexed journals during 2003
    B = the number of articles, reviews, proceedings or notes published in 2001-2
    2003 impact factor = A/B
    (note that the 2003 impact factor was actually published in 2004, because it could not be calculated until all of the 2003 publications had been received.)
  • 바죠 2007/06/18 15:52 # 답글

    A :: 인용 많이 되면 좋지 않습니까?
    B :: 좋지요.
    C :: 틀린것도 많이되면 곤란하다고 생각합니다.

    사실, C의 관점을 생각하지는 못했다.
    그렇다. 악명 높은 논문도 있다.
  • 바죠 2008/02/01 16:42 # 삭제 답글

    http://lshlj.egloos.com/2643787

    High Impact but Less Popular
  • ExtraD 2010/04/04 09:43 # 답글

    늦었지만 저도 한번 해봤습니다. Spires-Hep에 등재된 논문들에 대한 결과입니다.

    total citation=1126, #of papers=44
    h=16, m=1.6, hbar=23.7
  • 바죠 2010/04/04 19:18 # 삭제

    미국 메이저 대학 교수급, 특급이십니다.
  • 바죠 2011/05/28 18:01 # 삭제 답글

    researcherid.com 에서 개인 연구자에게 웹 계정을 직접 제공하고, 개인 논문 목록, 각 논문에 대한 피인용횟수를 관리해주는 서비스를 제공한다.
    이러한 목록에 대한 URL까지 최종적으로 제공함으로써, 웹에 포스팅까지 할 수 있게 해준다.


  • 바죠 2016/10/06 10:19 # 삭제 답글

    http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=081&aid=0002762330

    창의 보다 트렌드를 따라가는 것이 IF 높은 저널의 속성이다.
댓글 입력 영역

최근 포토로그



MathJax