지식나눔

<데이터 댐>에 뭘 채우고, 어떻게 쓸까요?

  • 좋아요
지금 한국은 엄청난 규모의 데이터 댐을 만들고 있습니다.
유난히 이번 여름 비가 많이 오고
중국의 산샤 댐이 위험할 수 있다는 소식을 전해 들으면서
또 다른 형태이지만 댐이라는 말이 크게 다가옵니다.
 
한국 정부는 포스트 코로나19 대응책으로,
다양한 디지털 기술을 기반으로 분야별 디지털 전환을 이끈다는 계획인
‘디지털 뉴딜’정책을 추진하고 있습니다.
그 핵심은 <데이터 댐>일 것입니다.
데이터는 모든 디지털 기술을 가능하게 하는 재료이고,
미래 사회에는 그 자체로 가치를 가지는 자산이 될 것입니다.
 
매우 다양하고 폭 넓은 데이터가 ‘댐’에 모아지면
댐의 수로(네트워크)를 통해 흘러서
인공지능(AI) 등과 융합해서 다양한 활용이 가능해 질 것입니다.
데이터가 많아지니 인공지능이 똑똑해 질 것이고
가치 있는 데이터를 누구나 활용할 수 있게 되겠죠.


 
데이터 댐은 어디에 활용할 수 있을까요?
우선 다양한 비즈니스를 창출하리라 예상할 수 있습니다.
지금도 공공데이터를 통해 건강이나 부동산 앱들이 있고,
신종 감염병을 예측하는 등도 가능하리라 봅니다.
정부가 말한 활용처로는 △의료영상 판독 및 진료 △국민 안전망 확보 △해안경비 △불법복제품 판독 등이 있네요.
이처럼 여러 당면 문제 해결에도 기여할 것입니다.
 
코세니아 여러분,
 
어떤 데이터들이 더 많이 쌓이고 모여져야 한다고 보는지요?
누군가에 의해 만들어지기를 기대했던 것들이 있을 것입니다.
이런 데이터가 이렇게 만들어져야 한다고 제안을 한번 해 보시죠.
 
또, 데이터 댐을 통해 하기를 원하는 것도 있으시죠?
데이터가 없거나 부족해서 미처 하지 못했던 것이나
데이터를 통해 하결하면 인류 사회에 큰 기여를 하거나
연구개발에서 큰 진전이 있을 그런 내용들이 있을 것입니다.
 
코센은 코세니아 여러분의 제안이나 아이디어가 헛되지 않도록
정부 부처나 관련 기관이 반영하는 노력을 다할 것입니다.
코센도 데이터 댐을 만들까요?
여러분의 제안을 기대합니다.



* 참고자료 : 

과기정통부, 디지털 뉴딜 핵심 '데이터 댐' 구축에 나서다https://www.gov.kr/portal/ntnadmNews/2191165?hideurl=N

KISTI ‘기계학습 데이터 구축 사업’ 시작
http://www.korea.kr/news/policyNewsView.do?newsId=148875114&call_from=rsslink

과학자들의 집단 지성이야기
KOSEN 이슈토론에 의견을 작성해 보세요.
의견 6
  • 많은 데이터를 갖고 있는 댐을 관리할 수 있는 프로세서가 필요하다고 생각합니다.

    좋아요
    '흐르지 않는 물은 썩는다'

    아무리 많은 데이터를 갖고 있더라도 그것을 제대로 활용하지 못한다면 결국 쓸모없는 데이터일 뿐이라고 생각합니다. 따라서 양질의 데이터를 관리하고 해당 데이터와 이용자를 쉽게 연결해 줄수 있는 프로세서가 필요하다고 생각합니다.
    '흐르지 않는 물은 썩는다'

    아무리 많은 데이터를 갖고 있더라도 그것을 제대로 활용하지 못한다면 결국 쓸모없는 데이터일 뿐이라고 생각합니다. 따라서 양질의 데이터를 관리하고 해당 데이터와 이용자를 쉽게 연결해 줄수 있는 프로세서가 필요하다고 생각합니다.
    등록된 댓글이 없습니다.
  • 정리된 데이터

    좋아요
    위에 많은 분들께서 지적하였듯이 데이터의 양보다는 질이 중요하다는 생각에는 모두 동의하고 있고, 저도 같은 생각입니다. 
    그런데 데이터댐에 많은 양의 데이터를 저장하는 것만으로도 의미를 가질 수 있지만, 데이터분석을 잘 모르는 분들도 활용할 수 있게 정리된 데이터도 필요하다고 생각됩니다. 
    적절한 비유일지 모르겠지만, 인터넷에는 많은 정보가 있지만 이 정보를 개개인이 찾아야하고 그러다보니 컴퓨터와 인터넷을 잘 활요하지 못하는 분들은 정보가 아무리 많아도 활용할 수 없는 것과 같다고 생각됩니다. 
    따라서 데이터댐에는 데이터의 질을 높일 수 있는 분석툴이나 통계분석을 통해 도출한 유의미한 결과도 함께 포함되면 좋겠다고 생각합니다. 
    위에 많은 분들께서 지적하였듯이 데이터의 양보다는 질이 중요하다는 생각에는 모두 동의하고 있고, 저도 같은 생각입니다. 
    그런데 데이터댐에 많은 양의 데이터를 저장하는 것만으로도 의미를 가질 수 있지만, 데이터분석을 잘 모르는 분들도 활용할 수 있게 정리된 데이터도 필요하다고 생각됩니다. 
    적절한 비유일지 모르겠지만, 인터넷에는 많은 정보가 있지만 이 정보를 개개인이 찾아야하고 그러다보니 컴퓨터와 인터넷을 잘 활요하지 못하는 분들은 정보가 아무리 많아도 활용할 수 없는 것과 같다고 생각됩니다. 
    따라서 데이터댐에는 데이터의 질을 높일 수 있는 분석툴이나 통계분석을 통해 도출한 유의미한 결과도 함께 포함되면 좋겠다고 생각합니다. 

    동의합니다.

  • 데이터 전처리 및 정제 작업의 중요성, 그리고 고용창출 - 인재양성으로 연계

    좋아요

    디지털 뉴딜, 그린 뉴딜의 동력원으로서 데이터 댐을 만들고 각 산업별로 필요한 정보를 선별하여
    저장하고 활용할 수 있는 플랫폼을 만들겠다는 것은 새로운 산업의 근간을 만들고 국가경쟁력을 더
    높일 수 있는 계기가 될 것으로 보입니다.
     

    그런 데이터 거버넌스를 구축하고 운영하는 데 있어, 제가 몸담고 있는 제조업 현장에서의 목소리를 
    말씀드리자면,

    첫 째는, 쓸모있는 데이터 수집의 중요성
    스마트 기기, IoT 를 기본으로 달고 나오는 요즘 기기들로부터 백엔드에서 처리하는 데이터 양이 급격하게
    증가하고 있습니다. 처음부터 이런 데이터를 가지고 기업의 핵심이 되는 서비스 컨텐츠로 연결하고자 하는
    컨셉/ 기획 없이 단순히 데이터가 자산이라니까 다 모으자 하는 생각은 서버 운용관리 비용 문제뿐만
    아니라, 나중에 엄청나게 커진 볼륨과 표준화되지 않은 구조로 인덱싱조차 어렵게 합니다.
     

    둘 째는, 잘 정제된 데이터의 중요성
    데이터 활용에 대한 컨셉이 잡히고 데이터 폼이 잘 구성되어 있는 경우에는 좋겠지만, 닭이 먼저냐?
    알이 먼저냐? 처럼 데이터가 없어서 기획을 정교하게 하지 못하는 경우도 분명 있습니다.
    그렇다고 데이터를 방치하지 않고 활용할 수 있는 형태로 전처리하고 표준화 시켜놓아야 합니다.

     요즘 공공기관 데이터나 한국어 음성 DB 오픈 등 여러가지 데이터를 제공하려는 움직임은 매우 바람직
    하지만, 실제로 사용하려면 제품의 특성 (MIC 취부구조나 그로 인한 인식률 차이)에 따라서 적용되기는 
    한계가 있긴 합니다.

    셋 째는, 분석되고 활용된 데이터를 통해서 또 다른 양질의 데이터를 획득해야 한다는 것입니다.

    이는 단순히, 데이터의 양만 쌓이면 더 좋을 것이다라는 선입견을 깨고, 데이터의 질을 더 높이기 위한
    노력을 계속추구해야 함을 말하며, 1차원적인 데이터가 아니라 1차 가공 후 2차 데이터를 통해 현실세계를
    더 잘 반영할 수 있는 쪽에 가중치를 두거나, 현장에서 더 적합한 데이터를 fitting 할 수 있도록 해야
    지속적인 알고리즘 개선으로 이어질 수 있습니다.

     

    기업이 아닌, 국가적인 측면에서 본다면 이런 데이터 기반 사업을 구축하고 다른 산업으로의 연계 확장을
    꾀하는 과정에서 수반되는 고용 창출 효과에 대해서 제언을 드리고 싶습니다.
     

    [데이터댐①] 양질의 데이터를 어떻게 담을 것인가…“관건은 수질관리” http://m.ddaily.co.kr/m/m_article/?no=199512

    위 연재기사에서도 잘 다루고 있지만, 데이터 정제작업 (레이블링 및 트레이닝 DB구축, 표준화 set 구성 등)
    이야 말로 흩어져있는 데이터를 진정으로 가치있게 만드는 첫 걸음입니다. 이런 일들이 '노가다' 같은 면이
    있어서, 단기 고용효과만 노리고, 알바생들 써서 생색내기로 비쳐진다는 일각의 우려도 있는데,

    이렇게 데이터를 한번 만져본 인원들이 더 흥미를 갖고 해당 Domain knowledge를 가지고 분석 및 해석 스킬을 익히고 연계된 산업군으로 진출할 수 있는 고용 승계로 확장되어야 하겠습니다. 데이터 분석을
    통해서 어떻게 활용이 되고 이런 데이터들이 정말 파워풀하게 쓰일수도 있구나 라고 현장에서 바로 보고
    듣고 느낄 수 있는 위치에 있기 때문에 단계별로 역량을 키우고 적재적소에 활용할 수 있다면 국가차원에
    서도 큰 득이 되지 않을까요?

    디지털 뉴딜, 그린 뉴딜의 동력원으로서 데이터 댐을 만들고 각 산업별로 필요한 정보를 선별하여
    저장하고 활용할 수 있는 플랫폼을 만들겠다는 것은 새로운 산업의 근간을 만들고 국가경쟁력을 더
    높일 수 있는 계기가 될 것으로 보입니다.
     

    그런 데이터 거버넌스를 구축하고 운영하는 데 있어, 제가 몸담고 있는 제조업 현장에서의 목소리를 
    말씀드리자면,

    첫 째는, 쓸모있는 데이터 수집의 중요성
    스마트 기기, IoT 를 기본으로 달고 나오는 요즘 기기들로부터 백엔드에서 처리하는 데이터 양이 급격하게
    증가하고 있습니다. 처음부터 이런 데이터를 가지고 기업의 핵심이 되는 서비스 컨텐츠로 연결하고자 하는
    컨셉/ 기획 없이 단순히 데이터가 자산이라니까 다 모으자 하는 생각은 서버 운용관리 비용 문제뿐만
    아니라, 나중에 엄청나게 커진 볼륨과 표준화되지 않은 구조로 인덱싱조차 어렵게 합니다.
     

    둘 째는, 잘 정제된 데이터의 중요성
    데이터 활용에 대한 컨셉이 잡히고 데이터 폼이 잘 구성되어 있는 경우에는 좋겠지만, 닭이 먼저냐?
    알이 먼저냐? 처럼 데이터가 없어서 기획을 정교하게 하지 못하는 경우도 분명 있습니다.
    그렇다고 데이터를 방치하지 않고 활용할 수 있는 형태로 전처리하고 표준화 시켜놓아야 합니다.

     요즘 공공기관 데이터나 한국어 음성 DB 오픈 등 여러가지 데이터를 제공하려는 움직임은 매우 바람직
    하지만, 실제로 사용하려면 제품의 특성 (MIC 취부구조나 그로 인한 인식률 차이)에 따라서 적용되기는 
    한계가 있긴 합니다.

    셋 째는, 분석되고 활용된 데이터를 통해서 또 다른 양질의 데이터를 획득해야 한다는 것입니다.

    이는 단순히, 데이터의 양만 쌓이면 더 좋을 것이다라는 선입견을 깨고, 데이터의 질을 더 높이기 위한
    노력을 계속추구해야 함을 말하며, 1차원적인 데이터가 아니라 1차 가공 후 2차 데이터를 통해 현실세계를
    더 잘 반영할 수 있는 쪽에 가중치를 두거나, 현장에서 더 적합한 데이터를 fitting 할 수 있도록 해야
    지속적인 알고리즘 개선으로 이어질 수 있습니다.

     

    기업이 아닌, 국가적인 측면에서 본다면 이런 데이터 기반 사업을 구축하고 다른 산업으로의 연계 확장을
    꾀하는 과정에서 수반되는 고용 창출 효과에 대해서 제언을 드리고 싶습니다.
     

    [데이터댐①] 양질의 데이터를 어떻게 담을 것인가…“관건은 수질관리” http://m.ddaily.co.kr/m/m_article/?no=199512

    위 연재기사에서도 잘 다루고 있지만, 데이터 정제작업 (레이블링 및 트레이닝 DB구축, 표준화 set 구성 등)
    이야 말로 흩어져있는 데이터를 진정으로 가치있게 만드는 첫 걸음입니다. 이런 일들이 '노가다' 같은 면이
    있어서, 단기 고용효과만 노리고, 알바생들 써서 생색내기로 비쳐진다는 일각의 우려도 있는데,

    이렇게 데이터를 한번 만져본 인원들이 더 흥미를 갖고 해당 Domain knowledge를 가지고 분석 및 해석 스킬을 익히고 연계된 산업군으로 진출할 수 있는 고용 승계로 확장되어야 하겠습니다. 데이터 분석을
    통해서 어떻게 활용이 되고 이런 데이터들이 정말 파워풀하게 쓰일수도 있구나 라고 현장에서 바로 보고
    듣고 느낄 수 있는 위치에 있기 때문에 단계별로 역량을 키우고 적재적소에 활용할 수 있다면 국가차원에
    서도 큰 득이 되지 않을까요?

    앞으로 생겨날것으로 충분히 예상됩니다.

  • 찐 BD

    좋아요
    제시된 다이아 그람은 BOM처럼 분할 하여 보기 편하게 해주셨습니다.
    BD,DB는 다양하게 수렴하여 인정된 데이터가 통계적 그리고 방향 등의 자료가 쌓이면 되는 것이라고 봅니다. 특히 국가사업으로 이루어 지는 분야는 이 내용을 다루면 어떨지요?
    . 특히 유용한 자료의 공유가 기업의 노하우 라면 공유를 하지 않겠지요. 개인의 자료도 마찬가지이고 어느 정도의 기준이 있어야 한다고 봅니다.
    또한 DB를 올리고 이 내용이 신뢰성이 있는지를 판단하는 기술,기준의 인증시스템 개발이 선행되어야 한다고 봅니다.
    알고 있는 부분중에 이는 표준화(전세계?)가 우선인 것 같으며 실무기술은 연결하여 보여주는 브릿지기술이라고 본다면 합동형이 아닌 세분형으로 추진, 그리고 무엇보다도 중요한 것은 가치를 인정한다면 참여를 하게 끔 이끄는 방안도 중요하다고 본다.
    이 부분에 다양한 분야의 사람들이 BOM처럼 세분화하여 참여할 수 있는 기틀을 만들고, 내가 좋아 오픈소스(기존,현재,미래)를 만드는 분들에게도 인정을 하는 시스템이 구축되면 합니다.
    아주 엉뚱한 발상도 다듬으면  보석이 된다는 평범한 진리를 믿으면 합니다.
    제시된 다이아 그람은 BOM처럼 분할 하여 보기 편하게 해주셨습니다.
    BD,DB는 다양하게 수렴하여 인정된 데이터가 통계적 그리고 방향 등의 자료가 쌓이면 되는 것이라고 봅니다. 특히 국가사업으로 이루어 지는 분야는 이 내용을 다루면 어떨지요?
    . 특히 유용한 자료의 공유가 기업의 노하우 라면 공유를 하지 않겠지요. 개인의 자료도 마찬가지이고 어느 정도의 기준이 있어야 한다고 봅니다.
    또한 DB를 올리고 이 내용이 신뢰성이 있는지를 판단하는 기술,기준의 인증시스템 개발이 선행되어야 한다고 봅니다.
    알고 있는 부분중에 이는 표준화(전세계?)가 우선인 것 같으며 실무기술은 연결하여 보여주는 브릿지기술이라고 본다면 합동형이 아닌 세분형으로 추진, 그리고 무엇보다도 중요한 것은 가치를 인정한다면 참여를 하게 끔 이끄는 방안도 중요하다고 본다.
    이 부분에 다양한 분야의 사람들이 BOM처럼 세분화하여 참여할 수 있는 기틀을 만들고, 내가 좋아 오픈소스(기존,현재,미래)를 만드는 분들에게도 인정을 하는 시스템이 구축되면 합니다.
    아주 엉뚱한 발상도 다듬으면  보석이 된다는 평범한 진리를 믿으면 합니다.
    등록된 댓글이 없습니다.
  • 기초과학분야의 data...

    좋아요
    기초과학분야의 data가 많이 모여야 한다고 생각합니다.

    미래에 수많은 data들을 응용하기 위해서는 기초가 되는 분야의 data들이 많이 필요하다고 생각합니다.

    그중에서도 4차산업을 이끌어갈 산업들의 data들을 많이 쌓아 미래 기술에서 한국이 앞서 나갈 수 있게 하는것이 좋겠습니다.
    기초과학분야의 data가 많이 모여야 한다고 생각합니다.

    미래에 수많은 data들을 응용하기 위해서는 기초가 되는 분야의 data들이 많이 필요하다고 생각합니다.

    그중에서도 4차산업을 이끌어갈 산업들의 data들을 많이 쌓아 미래 기술에서 한국이 앞서 나갈 수 있게 하는것이 좋겠습니다.
    등록된 댓글이 없습니다.
  • Big Data 시대 --- 이젠 Data의 양보단 질

    좋아요
    사내에서 big data를 처리하여 유의미한 insight를 발굴해 내는 작업을 틈틈이 하고 있습니다.
    대기업이라 엄청난 양의 data가 실시간으로 생성되었다가 일정 시간이 지나면 big data lake에서
    사라집니다. -- data 보존에도 돈이 들기때문에....

    내가 찾고자 하는 data, 해당 가설을 증명할 말한 data, 혹은 어떤 이슈의 원인 규명에 필요한 data를
    찾았을 때 막상 내가 필요한 data의 양은 너무나도 적어서 통계적으로나 물리적으로 규명하기
    힘든 상황이 종종 있었습니다...

    이런 이유는 무분별하게 data만 축적하는데 급급해서 생긴 문제라고 생각합니다.
    정말 목적에 맞는 data를 잘 필터링해서 양질의 data를 축적했을 때 정부에서 말하는
    Data 댐도 의미가 있을 것 같습니다. 

    이제는 data의 양이 아닌 질로 승부하는 시대가 왔습니다. 어떤 분야가 되었건
    이 부분을 잘 염두해서 처음부터 high quality data를 축적하기 위한 방안을 모색하는 것이
    바람직 하겠습니다 ^^ 
     
    사내에서 big data를 처리하여 유의미한 insight를 발굴해 내는 작업을 틈틈이 하고 있습니다.
    대기업이라 엄청난 양의 data가 실시간으로 생성되었다가 일정 시간이 지나면 big data lake에서
    사라집니다. -- data 보존에도 돈이 들기때문에....

    내가 찾고자 하는 data, 해당 가설을 증명할 말한 data, 혹은 어떤 이슈의 원인 규명에 필요한 data를
    찾았을 때 막상 내가 필요한 data의 양은 너무나도 적어서 통계적으로나 물리적으로 규명하기
    힘든 상황이 종종 있었습니다...

    이런 이유는 무분별하게 data만 축적하는데 급급해서 생긴 문제라고 생각합니다.
    정말 목적에 맞는 data를 잘 필터링해서 양질의 data를 축적했을 때 정부에서 말하는
    Data 댐도 의미가 있을 것 같습니다. 

    이제는 data의 양이 아닌 질로 승부하는 시대가 왔습니다. 어떤 분야가 되었건
    이 부분을 잘 염두해서 처음부터 high quality data를 축적하기 위한 방안을 모색하는 것이
    바람직 하겠습니다 ^^ 
     

    맞습니다. 데이터는 질입니다. 용어도 중요하더라구요.

    동의합니다. 갈수록 거짓 데이터들이 너무 많아지고 있어요