to be or not to be that is the question by 바죠


to be or not to be that is the question
blank를 포함하고, 영문자 26개를 활용하여 이 문장을 완성할 수 있다. 자명하다.
위와 같이 39개의 낱칸을 채워서 문장을 완성하는 보다 확률론적 접근법을 생각해 보자.
이렇게 특별한 문장이 가능해지려면 많은 우연이 있어야 한다고 생각하자.
예를 들어, 이것은 정확히 39개의 낱칸에 27가지 문자를 넣는 방법들 중 하나에 해당하는 것이다..
물론, 충분히 창의적이고 독창적인 상황을 자유롭게 상상할 수 있다면 위와 같은 문장은 순식간에 나올 수 있다.

모두 다 나열해서 평가를 하는 방법이 가장 확실한데, 시간이 많이 걸린다. 거의 불가능에 가깝다고 볼 수 있다.
그렇다면, 어떻게 해야하나?

\[ 27^{39} \sim  6.7 \times 10^{55} \] 

-7.0  dczrwbcupkohijqqyeftshfiibousoxquyjtvha

-8.0  yoygwybynsw ttbaftcmo lbdgrkojheltrjl

-10.0 treweef gndtwtanb xbmtdimphxeujisqtqri

-11.0 treweefagndtwt ajb ybytisbhxwktisqkqod

-12.0 mo weeftfndtnttaj  tbyt ibbhfwknwsqtqns

-13.0 pppua ga zoh tox c fvdr sm cjpnwuekdioe

-15.0 pogbf opoxwkhponhg hlatoyjtheuqusxeknn

-16.0 to oe gocnig novrektxdjurrvthkzhasfiou

-18.0 xnvs   w n t qyzvri ft in ihp quvstiop

-19.0 xnvseu w ntt qyzvri at is ihp quvstgop

-22.0 tv be grnna qt xqihr atrismthekqunstion

-23.0 to se grcnatqt xji rgatqwsmtheiquestqon

-25.0 do ne or notqtaaqzotyat ieftheqmfstiin

-27.0 so be or nob ko rejtdyt ws the phestunn

-28.0 ro be or notgjodbgotvatfisvihv question

-30.0 to be gw nob to re tdat ws the phestinn

-31.0 rozbe or notnto kvothatisvjhe question

-32.0 to be orgnot to ke thltcisvdhequestiod

-33.0 to be vrgnot to be thltcis dhe questiod

-34.0 ro be orvnot to je thah isbthe question

-35.0 to be or notpto re that is thesquestiof

-36.0 to be or notpqo be that is the questiof

-37.0 to be or notgto be that isvthe question

-38.0 to be or not to be that isvthe question

-39.0 to be or not to be that is the question



재미있는 사실은 분자들도 문자열로 표현할 수 있다는 것이다. SMILES가 대표적인 양식이다.
이보다 최근에 발표된 양식으로 SELFIES같은 것도 있다.

\[ 10^{60}\]

단순히 문자열의 배열이 원하는 목표와 정확히 같은 것을 찾는 문제를 넘어 서 보자. 
사실, 본질적으로는 같은 것이다.
실제로 필요한 물성이 원하는 것이 되도록 문제를 바꿀 수 있다.
다양한 분자를 표현할 수 있다면, 각 분자 모양으로 부터 물성을 계산할 수 있다고 가정하면, 매우 유용한 물성 최적화가 동등하게 가능하다는 것이 자명해진다.

1988년에 발표된 SMILES는 분자를 일차원 문자열로 표현하는 방법으로 제안되었습니다.
1차원 문자열 --3차원 실제 분자모양, 좌에서 우로, 우에서 좌로 갈 수 있는 변환식이 만족되는 문법을 만들어 낸 것으로 볼 수 있습니다.
그런데, 이것이 주목을 받지는 못했습니다. 하지만, 기계학습이 많이 사용되면서 중용되기 시작했습니다.
특정한 분자를 변이(mutation) 또는 교차(crossover)를 시도하려고 하는데, 문법상 말이 되지 않는 경우들이 많이 발생하게 됩니다.
즉, 쉽고 일반적인 변이, 교차를 만들 수 없는 약점이 노출된 것이죠. 물론, 그대로 사용해도 됩니다. 완전히 말이 안되는 분자는 포기하는 식을 채택하면됩니다.
아스프루-구직 교수팀에서는 SMILES의 이러한 약점을 보완한 SEFIES라는 새로운 문법체계를 제안하게 되었습니다.
1차원 문자열 -- 분자 모양을 변환할 수 있는 보다 강력한 표현식을 만들어 냄.

1차원 문자열로 분자를 표현할 수 있다는 사실에 주목해야 한다. 
따라서, 우리는 분자 공간을 1차원 문자열로 탐색할 수 있다.
1차원 문자열은 매우 편리하다. 교차 및 변이에도 유리하다. 자명하다.
문자열 일부를 바꾸는 것이 변이에 해당한다.
두 개의 문자열을 서로 교차시켜서 새로운 문자열을 만들 수 있는데, 이것을 교차라고 한다.
교차와 변이가 1차원 표현에서는 매우 자연스럽게 정의된다. 


목표로 하는 분자를 찾아내는 방법 == 분자 설계 방법

기계학습에서 가장 중요한 선택이 있다면, 그것은 좋은 representation을 선택하는 것이다. 
여러 가지가 있을 수 있기 때문에 가장 좋은 것을 선택하는 능력을 키워야 한다.
[ 기계학습의 3요소는 representation, evaluation, optimization이다. ]
아주 잘 선택을 해야 한다. 그렇지 않으면 뒤따르는 산수들의 의미가 약하게 된다. 

가능한 분자들의 수는 대략 아래와 같다.
\[ 10^{60} \]

특정 파장, 200 nm 를 잘 흡수할 수 있는 분자들은 어떻한 것들이 있을까?
이들 구조들을 문자열 공간에서 찾을 수 있다.
마찬가지로 400 nm 빛을 잘 흡수할 수 있는 분자들도 상상할 수 있다.

통상 score라고 하면 최대화를 의미한다.
비용이라고 하면 통상 최소화를 의미한다.
이를 쉽게 이야기 할 경우, objective function을 최적화 한다고 한다.
왜냐하면, 최대화 최소화는 그냥 같은 최적화로 본다. 부호의 차이만 있기 때문이다. 
결국, score 함수는 최대화를 목표로 하는 것을 가정하고 있다.
oscillator strength라고 해서, 빛이 흡수될 수 있는 확률을 이야기 한다.

---------------------------------------------------------------------------------------------------------------------
532개의 도시를 단 한번만 방문하고 출발한 도시로 다시 돌아오는 문제도 마찬가지이다. 이때 모든 도시들 사이의 거리는 알려져 있다. 총이동 거리가 가장 작은 하나의 경로를 상상할 수 있다. 이것을 찾는 것이 바로 잘 알려진 외판원 문제이다.
\[ 531!/2 \] 

사실은 판에 구멍을 가장 빨리 뚫는 경로를 찾는 것과 완전히 동일한 문제이다.
최단 경로로 이동하면서 532개의 구멍을 만드는 경우에도 생각해야하는 문제이다.
---------------------------------------------------------------------------------------------------------------------
화학 반응경로 찾기 문제:
반응경로는 초기, 말기 조건을 알고 있을 때, 아래의 action을 광역최적화하므로써 얻을 수 있다.
Action-CSA

---------------------------------------------------------------------------------------------------------------------

마찬가지로 분자, 결정구조들도 찾을 수 있다. 즉, 설계할 수 있다.
\[ f(a,b,c,\alpha,\beta,\gamma,\{\vec{R_i}\}) \] 
이상적인 물성들을 가지는 결정구조를 제일원리 계산을 활용하면 물질 설계가 가능하다.
예를 들어, 위상 물질, 초전도 물질, 고이동도 물질, 태양전지 물질, LED 물질, 열전 물질, 초경질 물질 등 무궁무진하다.
물론, 설계하고 탐색한다고 해당 물질이 합성되고 해당 성능을 나타내는 것은 아니다.
하지만, 제일원리 전자구조 계산과 광역최적화 방법의 결합은 이론적으로 최고의 물성을 가지는 결정구조를 직접적으로 제시할 수 있는 방법이다. 
가장 간단한 예제는 가장 안정한 결정구조를 찾는 것이다. 
에너지 함수이외에 다양한 물성을 목적함수로 설정할 수 있다. 
목적함수는 매우 다양하게 정의 될 수 있다. 
원자구조의 특성을 포함할수도 있다. 
많은 경우, 결정 합성에 어려움이 있다.
사실이다.

Inverse problem을 푸는 것은 공학적으로 매우 자연스러운 접근법이다.
인공신경망으로 인과관계를 잘 학습할 수 있다면, Inverse problem을 풀수도 있다.

그렇다면, 인공신경망을 활용하는 방법, 진화학습 방법 두 가지 중에서 어떠한 것이 더 우월할까?
답변하기 매우 어려운 질문이다.


---------------------------------------------------------------------------------------------------------------------
이번에는 자연에 존재하지 않는 인공물 설계에 도전해 보자. 메타원자로 메타표면을 만들어 보자.
인공원자로 인공2차원 표면구조를 만든다. 잘 알려진 사실로서 다음과 같은 것이 있다. 
파장보다 작은 많은 구조물들로 부터 독특한 파동의 투과, 반사 특성을 얻어낼 수 있다.

2차원 평면에 놓일 수 있는 인공구조를 생각하자. 5G 통신에 사용될 수 있는 인공구조물을 생각한다. 
특정 주파수를 통과/차단시키는 메타표면구조 설계 문제를 고려한다.

정사각형 모양으로 만들어진 2916개의 픽셀들을 생각하자. 
정사각형 모양의 단위셀 안에 아래와 같이 많은 수의 픽셀들을 생각하자.
최종적으로 단위셀들은 2차원, 평면에 반복적으로 무한히 배열할 것이다.

\[ 54 \times 54 = 2916 \]

각 픽셀은 금속으로 채워지거나, 채워지지 않거나 두 가지 상태들 중에서 하나만 선택할 수 있다고 가정한다.
이 단위셀에 아래와 같은 대칭성을 부여할 수 있다.
우리가 몇 가지 조건을 제시하면 2916는 351개로 줄어든다.

1. 좌우대칭, 아래위 대칭, 대각대칭을 고려한다. 가능한 픽셀들의 숫자은 대략 1/8로 줄어든다.
2. 추가적인 가정을 하나 더 도입한다. 가장자리는 상태는 한 가지 상태로 고정한다고 가정한다.

이렇게 되면, xy각각의 방향에 대해서, 54 절반은 27인데, 절반중에서 가장자리를 제외하면 26으로 줄어든 경우이다. 
아래 그림에서 알 수 있듯이, 1+2+3+...+26 = 351

픽셀의 상태가 두가지뿐이지만, 아래의 그림처럼 2차원을 가정하면 보다 더 많은 경우의 수가 가능하다. 
물리적으로 이야기 하면, 2차원 단위셀에 351개의 픽셀들이 분포한다고 가정한다. 대칭성을 고려하지 않으면 2916 개의 픽셀들이 단위셀 내부에 분포하는 것이다.

351개의 독립적인 상태들이 분포한다고 보자.
각 픽셀은 두가지 상태만 가능하다고 가정한다. 금속으로 채워진 상태('1'), 금속으로 채워지지 않은 상태 ('0').
특정 주파수를 가지는 전자기파가 단위셀들의 무한 반복으로 이루어진 메타표면(metasurface)을 투과할 것이지 반사할 것인지를 결정할 수 있다.
메타표면은 인공적으로 만들어낸 표면 구조를 통칭하는 것이다. 특수 목적을 수행할 수 있는 인공적인 표면이라고 할 수 있다.
메타표면은 전자기파 파장보다 작은 크기의 인공구조를 배열 설계하는 빛을 투과또는 반사시킬 수 있다.
‘더 높은’, '상위',  ‘초월한’ 과 같은 의미를 지니는 접두어가 meta이다.

파장보다 작은 구조적 특징을 다양하게 만들 수 있는 것이 중요하다. [subwavelength, scatters]
이러한 구조적 단위를 meta-atom이라고 부를 수도 있다.

metaatom들이 모여서 만든 물질을 metamaterial이라고 한다. 
표면일경우, metasurface라고 한다.
특정 주파수를 선택할 수 있는 경우, frequency selective surface라고 부르기도 한다.

전기를 유도하는 유전체를 상상할 수 있다. 금속 조각을 동시에 고려하면 우리는 주파수에 의존하는 전자파 차단과 투과를 각각 논할 수 있다.
전자기파의 거시적인 특성을 재료 고유의 물리 화학적 특성이 아닌, 기하학적 구조의 물리적 특성만을 이용하여 새로운 특성을 가지는 물질을 설계하는 것이 가능하다. 유전체 또는 금속을 파장보다 더 작은 크기에서 배열하는 것이다.


\[ 2^{351} \sim 4.5 \times 10^{105}  \]

이 또한, 모두다 나열해서 평가하는 것은 불가능하다. 자명하다. 
그렇다면 어떻게 이 문제를 풀어야 하는가?

투과율을 dB 단위로 잡을 수 있다. 통과/차단 특성을 극대화하기 위해서, dB 단위 수준에서 투과율을 정의하면 편리하다.
28 GHz 주파수가 5G 통신의 핵심 주파수이다.
또한, 28, 39, 60, 73 GHz 등이 거론되고 있다.
28 GHz 주파수의 효율적인 차단과 투과를 이루어낼 수 있는 소자가 반드시 필요하다.
현재, 고객용으로 구축한 5G 상용망은 3.5 GHz 기반이다. 
28 GHz는 초고속 대용량 데이터 전송을 가능케 하지만 전파손실에 취약해 전국망 구축에는 적합하지 않다는 평가가 있다.
2020년 10월 8일 최기영 과기정통부 장관은 28 GHz망 사용을 B2B, 즉 기업 대 소비자가 아닌 기업 대 기업으로 한정한다는 입장을 밝혔다.
사실상 28 GHz의 전국망 서비스를 포기하고 특정 지역이나 건물에 한정하여 운영한다는 것이다.

밀리미터 대역은 통상 30~300 GHz 사이의 주파수 대역을 일컫는 말이다. 이 대역의 파장은 1~10 mm 정도이다.
5G 28 GHz 대역은 3사가 각각 800 MHz폭씩 할당받아 사용 중이다.
인구밀집지역이나 기업(B2B)시장에 28 GHz를 활용한다는 계획
한국에서 1400만 이상이 5G에 가입되어 있다. 하지만, 통신 품질 불만은 대단하다. 서둘러 개통한 덕이다.
소비자들에게 거짓말을 한 것에 대한 소송은 불가피하다고 본다. 정부와 업체의 책임이 크다. 부인할 수 없다.
동일 채널 간섭, 인접 채널 간섭은 초기 시스템 설계 조건 변경이나, 수신기쪽에서 선택적 필터링 등을 이용하여 해결할 수 있다.

- 동일 채널 간섭(Cochannel Interference, CCI)
- 인접 채널 간섭(Adjacent Channel Interference, ACI)

그림에서 알 수 있듯이, 기약영역(irreducible zone)에서 결정해야 할 상태들(각 픽셀의 상태는 0 또는 1)의 수는 1+2+3+...+26 = 351 이다.
현재 일반 고객용으로 구축한 5G 상용망은 3.5 GHz 기반이다.
28 GHz는 초고속 대용량 데이터 전송을 가능케 하지만 전파손실에 취약해 전국망 구축에는 적합하지 않다는 평가를 받고 있다.
밀리미터 대역은 통상 30~300 GHz 사이의 주파수 대역을 일컫는 말인데 이 대역의 파장이 1~10 mm 정도
5G 28 GHz 대역은 3사가 각각 800 MHz폭씩 할당받아 사용 중이다.
https://www.econovill.com/news/articleView.html?idxno=515800
인구밀집지역이나 기업(B2B)시장에 28 GHz를 활용한다는 계획
동일채널 간섭, 인접채널 간섭은 초기 시스템 설계 조건 변경이나, 수신기쪽에서 선택적 필터링 등을 이용하여 해결할 수 있다.
- 동일채널간섭(Cochannel Interference, CCI)
- 인접채널간섭(Adjacent Channel Interference, ACI)
---------------------------------------------------------------------------------------------------------------------
이러한 문제들은 모두 광역최적화 문제들이다. 특히, 조합최적화 문제로 볼 수 있다.

다양성을 유지할 수 있는 유전 알고리듬을 활용한다.
아래의 세가지 방법을 동원한다.
유전알고리듬,
풀리시늉,
국소최적화
이렇게 많은 가능성이 있는 것들 중에서 어떻게 유용한 하나를 찾는 것이 가능한가?
그 이유는 의외로 간단하다. 

첫째, 많은 후보해들을 동시에 고려하기 때문이다.
둘째, 후보 해들 사이에서 보다 우월한 해들을 분류할 수 있기 때문이다. 통상적으로 우월한 해들을 적극적으로 활용한다.
셋째, 후보 해들로 부터 보다 좋은 해를 만들어낼 수 있기 때문이다. 이때, 교차와 변이를 모두 활용한다. 새로운 공간으로의 탐험을 이용한다. 이것이 변이를 사용하는 이유이다. 유용한 해들의 융합을 철저히 이용한다. 이것이 교차를 사용하는 이유이다.
넷째, 새롭게 얻어낸 시도 해를 이용하여 보다 더 좋은 후보해를 만드는 과정을 활용한다. 국소최적화 방법이 예가 될 수 있다.
다섯째, 새로운 형식의 후보 해들이 후보 해 무리에 들어올 수 있게 해준다. 재생산을 할 수 있게 한다.
여섰째, 독특한 모양의 후보 해들을 버리지 않고 적절하게 무리에 포함시킨다. 후보해들 사이의 다양성을 추구한다.

현재까지 구축한 답안들에서 필요한 것들, 향후에 도움이 될 것같은 성분들을 확인할 수 있기 때문이다.
앞서 언급한 1차원 representation으로 말하면, 적어도 한 군데 정도는 정확한 답을 가지는 경우가 있다.
아니면, 많은 무작위 시도로부터 한군데를 맞추는 것이 가능하다. 
이러한 하나의 해를 가질 수 있다.
또한 우리는 다수의 잠정적인 해들을 취급한다는 점에도 동시에 주목해야 한다.
서로 다른 위치에 정확한 요소들을 가지는 여러개의 해들을 가질 수 있다면, 시작하는 단계에서 최종적인 목표에 다다를 수 있다는 것과 유사하다. 

필요한 성분들을 계속해서 모아둘 수 있으면 도움이 된다. 
물론, 현재의 해보다 조금이라도 더 개선된 해를 얻을 수 있어야 한다. 
이것을 얻기 위해서 충분히 많은 시도를 해야 한다. 빨리 개선할 수 있어야 한다. 

이러한 다수의 시도들은 병렬적으로 이루어질 수 있다. 매우 많은 컴퓨터들을 동시에 활용할 수 있다.
개선이 있는 결과들만 보관을 한다. 개선이 없는 결과들은 폐기한다.

개선이 이루어지면, 다시 말해서, 개선이 이루어진 다수의 해들을 확보하면 이들 해를 혼합하여 새로운 개선이 가능하다는 것이다.
개선이 다수의 해들에서 일어난다고 가정하면, 보다 더 빨리 전반적인 개선을 기대할 수 있다.
개선된 정보는 공개되어야 하고 사용되어야만 한다.
많은 경우, 수많은 경우의 수 때문에 겁을 먹기 마련이지만, 의외로 쉽게 문제를 풀 수 있다. 
불가능에 가까워 보이기 때문에 시도를 포기하는 일이 없어야 한다.

핑백

덧글

  • 바죠 2021/04/01 20:40 # 답글

    https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=009&aid=0004773134
  • 바죠 2021/04/02 11:12 # 답글

    현재 일반 고객용으로 구축한 5G 상용망은 3.5 GHz 기반이다.
    28 GHz는 초고속 대용량 데이터 전송을 가능케 하지만 전파손실에 취약해 전국망 구축에는 적합하지 않다는 평가를 받고 있다.
    밀리미터 대역은 통상 30~300 GHz 사이의 주파수 대역을 일컫는 말인데 이 대역의 파장이 1~10 mm 정도
    5G 28 GHz 대역은 3사가 각각 800 MHz폭씩 할당받아 사용 중이다.
    https://www.econovill.com/news/articleView.html?idxno=515800
    인구밀집지역이나 기업(B2B)시장에 28GHz를 활용한다는 계획
    동일채널 간섭, 인접채널 간섭은 초기 시스템 설계 조건 변경이나, 수신기쪽에서 선택적 필터링 등을 이용하여 해결할 수 있다.
    - 동일채널간섭(Cochannel Interference, CCI)

    - 인접채널간섭(Adjacent Channel Interference, ACI)




  • 바죠 2021/04/03 09:14 # 삭제 답글

    https://www.chosun.com/economy/tech_it/2021/04/02/N64PFOJEZVCRDCAODL3NPT5EGQ/
  • 바죠 2021/04/04 11:40 # 답글

    https://ko.wikipedia.org/wiki/5%EC%84%B8%EB%8C%80_%EC%9D%B4%EB%8F%99_%ED%86%B5%EC%8B%A0
  • 채널 2nd™ 2021/04/04 20:08 # 답글

    유기 분자를 문자열로 치환해서 뭔가 궁리해 본다는 생각은 -- 예전에 어렴풋이 생각했었던 것 같기도 하고 ㅎㅎ -- 놀랐습니다.

    항상 3 차원 무슨 모델과, 가지치기 그림 따위로 표현하고 있어서, 그렇게 문자열로 표현하는 것은 예상도 못했습니다.

    (아주 예전에 미합중국 유전자 특허국에서, 새로 등록되는 유전자열의 길이가 점점 길어져서, 일치/불일치를 찾는데 애를 먹었다고 들었던 적이..)

  • 바죠 2021/04/05 07:44 # 삭제

    기계학습의 핵심 포인트: 자기 분야에서 전문지식을 쌓아서, 좋은 representation을 찾는 것.
    그런데, SMILES라는 문자열로 분자를 표현하는 방식은 1988년에 이미 발표된 방식입니다.
    최근에는 이보다 더 유용한 문자열 표현 방식이 나타났습니다. SELFIES
  • 바죠 2021/04/06 08:12 # 삭제 답글

    1988년에 발표된 SMILES는 분자를 일차원 문자열로 표현하는 방법으로 제안되었습니다.
    1차원 문자열 --3차원 실제 분자모양, 좌에서 우로, 우에서 좌로 갈 수 있는 변환식이 만족되는 문법을 만들어 낸 것으로 볼 수 있습니다.
    그런데, 이것이 주목을 받지는 못했습니다. 하지만, 기계학습이 많이 사용되면서 중용되기 시작했습니다.
    특정한 분자를 변이(mutation) 또는 교차(crossover)를 시도하려고 하는데, 문법상 말이 되지 않는 경우들이 많이 발생하게 됩니다.
    즉, 쉽고 일반적인 변이, 교차를 만들 수 없는 약점이 노출된 것이죠. 물론, 그대로 사용해도 됩니다. 완전히 말이 안되는 분자는 포기하는 식을 채택하면됩니다.
    아스프루-구직 교수팀에서는 SMILES의 이러한 약점을 보완한 SEFIES라는 새로운 문법체계를 제안하게 되었습니다.
    1차원 문자열 -- 분자 모양을 변환할 수 있는 보다 강력한 표현식을 만들어 냄.
  • 바죠 2021/06/05 11:18 # 삭제 답글

    https://www.hankyung.com/society/article/2021052889141

댓글 입력 영역

최근 포토로그



MathJax