머신러닝이라는 말을 우리는 남발하는 거 같다. 워낙 핫 한 단어이고, 마치 ML 기술이 없으면, 시대에 뒤떨어지는 거 같아서, 데이터를 조금이라도 활용하는 비즈니스의 대표들은 모두 ML을 잘 활용하고 있다고 강조한다. 현실은 이와 반대이다. 공개된 데이터와 비공개된 데이터는 넘쳐흐르지만, 이 raw 데이터를 유용한 information으로 전환해주는 머신러닝을 제대로 활용하는 회사는 거의 없는 거 같다.
주말에 스탠포드 대학에서 진행한 연구에 대한 기사를 읽었는데, 기술을 데이터에 적용해서, 실제 생활에 도움이 되는 바람직한 정보를 생성한 사례인 거 같아서 잠깐 소개한다. 어느 지역에 사는 어떤 미국인들이 왜 지붕에 태양열 패널을 설치했는지 정확하게 알고 있다면, 국가의 전력 시스템을 더 효율적으로 관리할 수 있고, 재생 에너지 사용을 저해하는 요소를 정확하게 분석할 수 있지만, 지금까지 이 정보는 정확도가 떨어지는 추정치밖에 없었다.
더 정확한 접근을 하기 위해서, 스탠포드 대학 과학자들이 머신러닝 알고리즘을 이용해서 10억 개가 넘는 고화질 위성 이미지를 분석해서, 미국 48개 주에 설치된 솔라패널을 거의 모두 확인해봤다. DeepSolar라는 이 프로젝트를 시작하기 위해서, 프로젝트 멤버들은 일단 태양전지판의 유무가 라벨링 된 37만 개의 이미지 세트로 기계를 학습시켰고, 이 과정을 통해서 색깔, 크기, 질감과 같은 솔라패널의 특징을 기계가 확인하고 지적해낼 수 있었다. 이런 학습을 통해서 DeepSolar는 10억 개가 넘는 위성 이미지의 태양 전지판 유무를 93%의 정확도로 판단할 수 있게 됐다. 과거의 기술로는 수년이 걸렸을 텐데, 딥솔라는 한 달 만에 미국 전역에 설치된 약 147만 개의 태양 전지판을 발견했다. 연구원들이 여기에 미국통계국의 다양한 데이터를 접목해보니, 상당히 새로운 사실을 발견할 수 있었다.
특히, 과거에는 소득 수준이 높은 지역일수록 태양 전지판 도입을 많이 하는 거로 알려졌었고, 이게 어느 정도까지는 맞지만, 그 소득 수준이 연봉 $150,000 이상을 넘어가면 소득 수준과 태양 전지판 도입 결정에는 큰 상관관계가 없는 거로 밝혀졌다. 실은, 저소득 지역이야말로 – 특히, 일조량이 많지만, 전기세가 상대적으로 높은 지역 – 태양 전지판을 설치하면, 전기세를 절감할 수 있지만, 이 지역 주민도 이 사실을 모르고, 정책을 만드는 사람도 이걸 잘 모르고 있다는 사실도 발견했다. 물론, 저소득 지역이 태양전지판 도입을 적극적으로 하지 않는 이유는 상대적으로 높은 설치비용 때문이라고 예상되지만, 사실 전기세 절감 효과가 설치 비용보다 훨씬 더 크다. 이런 데이터를 기반으로 태양 전지판 업체들은 효과적인 대출이나 리싱 프로그램을 새로 만들 수도 있을 것이다.
또 다른 건, 동네의 태양 전지판이 특정 임계치를 넘어서면, 그 동네 모든 사람이 태양 전지판을 설치한다는 사실을 발견했다. 이건 어떻게 보면 자연스럽지만, 이 동네의 소득수준 편차가 심하면, 태양 전지판 확산이 굉장치 더디다는 사실 또한 알아낼 수 있었다. 이런 식으로 데이터를 계속 분석해보면, 태양 전지판 설치를 가속하기 위한 일조량, 소득수준의 편차, 설치의 임계치 등과 같은 지수를 더욱 고도화할 수 있을 것이다.
이 연구를 진행한 스탠포드 대학교수들은 연구 결과를 공개할 예정이며, 이를 또 다른 기관이나 개인들이 활용해서, 더 많은 태양 전지판 관련 패턴을 발견하길 바라고 있다. 궁극적으로 이를 통해서 전기가스업체가 전기의 수요와 공급을 더 효율적으로 조절하고, 정부의 규제기관 또한 더 정확한 에너지 관련 법안과 정책을 만들고, 미국이 더 탄탄한 경제모델을 만들 수 있다고 믿고 있다.
우리 모두 ‘raw 데이터’가 중요한 건 잘 알고 있다. 특히 많은 VC가 특정 비즈니스를 검토할 때, 실제 그 비즈니스보단, 이 비즈니스를 통해서 궁극적으로 얻을 수 있는 데이터가 얼마나 가치가 있냐에 따라서 투자 결정을 하는 경우도 많을 정도로 데이터는 중요하다. 하지만, 잘 생각해보면, raw 데이터가 중요한 이유는, 이 데이터를 잘 분석해서 특정 패턴을 찾을 수 있다면, 실생활에 도움이 되는 유용한 결정을 하기 위한 ‘정보’를 만들 수 있기 때문이다. 정보를 만들지 못하면, 세상의 모든 데이터가 있어도 소용없다.
그런데 너무 많은 회사가 이 방대한 데이터를 강조하고, 정보에 대한 언급은 전혀 하지 않는 걸 많이 경험했다. 그래서 나는 머신러닝 알고리즘 자체를 강조하기 보단 – 물론, 획기적인 알고리즘만 개발하는 좋은 회사도 있지만 – 어떤 데이터가 들어가서, 이 데이터가 어떤 정보가 되어서 나오는지를 강조하고, 그런 정보를 어떤 방식으로 만들 것인지에 대해 진지하게 생각해 본 팀이 실생활에 유용한 비즈니스를 만들 수 있다고 생각한다.