Tags » Bigdata

Running Spark 1.3.1 examples on a CDH4 cluster

Spark 1.x for CDH4

Recently, I came across versions of Spark 1.x and higher on the Apache Spark site that have a distribution built for CDH4.   320 more words

Hadoop

Gartner Says Power Shift in Business Intelligence and Analytics Will Fuel Disruption

“Self-service data integration will do for traditional IT-centric data integration what data discovery platforms have done for traditional IT-centric BI: reduce the significant time and complexity users face in preparing their data for analysis and shift much of the activity from IT to the business user to better support governed data discovery,” said Ms. 38 more words

Cloud Computing

IT training and IT Internship

Technigally provides 4 months Job Oriented IT training program in PHP, Java, Mobile Apps, Testing.

In this program first 2 months will be the classroom training in which the students are trained with industry oriented knowledge of PHP, Java, Mobile Apps and Testing . 86 more words

Mobile Apps

Are you looking for high salary IT Technologies - This survey will be best bet.

2014-data-science-salary-survey by  oreilly

http://www.oreilly.com/data/free/files/2014-data-science-salary-survey.pdf

Conclusion

This report highlights some trends in the data space that many who

work in its core have been aware of for some time: Hadoop is on the… 112 more words

Hadoop

빅데이터 Big Data 뭐지?

1.

Big Data (빅데이터), 신문이나 방송에서 IT분야의 새로운 트렌드로 간혹 소개되는 용어다.

말 그대로 데이터가 ‘무더기’ 처럼 엄청 많다는 것인데, 보통은 ‘무더기’ 라고 하면 가치가 없어서 버릴 것을 일컬을 때 쓰는 말이지만, 이 용어는 이’무더기’에서 잘 하면 엄청 가치 있는 것이 나올 수도 있다는 의미로 쓰이고 있다.

3~4년전에 스마트폰이 폭발적으로 늘어나고 이로 인해 사회가 여러분야에서 전환기를 맞고 있을 때 이 용어를 처음 보게 되었다. 첫번째 느낌은 글로벌하게 대형컴퓨터 팔아 먹는 사람들이 과거에 했던 것 처럼 또 뭔가 기업들 사이에 새로운 유행을 만들어서 기계 팔아먹으려고 수작을 부리는구나 싶었다.

과거에도 MIS니 CRM이니 데이터마이닝이니 하면서 이런것을 도입하면 무언가 경영에 큰 도움이 될 것처럼 환상을 심어주어서 대기업들이 경쟁적으로 시도를 했고 덩달아 글로벌 컨설팅사들까지 주머니를 채워주곤 했었다. 대부분의 결과는 그다지 신통치 않았다.

2.

2000년 이후에 본격적으로 사무실이나 집에서 인터넷이 연결된 컴퓨터를 쓰기 시작하면서 데이터가 늘어나기 시작했고, 요즘은 남녀노소 할 것 없이 스마트폰을 하루 종일 들고 다니면서 통화하고 검색하고 트윗하고 카톡하고 사진찍어 올리고 해대니까 국내만 하더라도 그 데이터의 누적 규모가 엄청날 것이라는 것을 짐작하기 어렵지 않을 것이다.

조금만 관심을 가지고 데이터를 들여다 본다면 정말 무언가 가치 있는 것이 나올 수도 있을 것 같은 막연한 생각은 든다.

빅데이터의 사례로 이해하기 쉽게 소개되는 것 중에 하나가 트윗의 타임라인이나 포털 검색에 독감의 증상에 대해서 올라오기 시작하면 특정지역에서 유행성 독감이 시작되고 있다는 것을 예상할 수 있어서 방역기관이 조치를 취할 수 있다는 내용이 있다. 그외에도 온라인 상점에서 과거의 구매나 검색 데이터를 분석해서 개인별 기호에 맞춘 상품을 권한다던가 해서 매출을 더욱 늘리는 경우도 흔히 소개되고 있다.

이와 같은 사례를 소개하는 책자나 기사를 보면 그럴 듯해 보여서 우리회사도 당장 무언가를 해야 되는 거 아닌가하는 생각이 들게 된다.

3.

국내외로 빅데이터에 대한 사례들이 신문과 방송에 자주 오르내리게 되자 몇몇 대기업들이 세상에 뒤쳐지면 안되겠다는 강박 관념으로 그동안 방치했던 ‘무더기’를 뒤지기 시작했다.

모카드사에서는 작년 연말에 빅데이터 센터를 설립해서 앞으로 무언가 해내겠다고 했다. 그 후 일간지에 신용카드 사용 내역을 분석해서 서울시내의 지역별 맛집을 소개하는 내용을 보았고, 외국인의 신용카드 사용 내역을 분석해서 발표한 적이 있었는데, 아직까지는 이렇다할 성과를 보여주지 못하는 것 같다.

뚜렷한 목표 없이 너무 큰 제목으로 폼나는 결과물만 만들려고 애쓰느라 어려움을 겪고 있는 것 같기도 하다.

4.

요즘은 전산장비들의 성능도 좋아지고 저장공간의 가격도 싸고 관련 통계 소프트웨어도 다양하고 해서 얼마든지 대량의 데이터를 분석할 수 있는 좋은 환경이 된 것은 분명하다. 최소한 물리적인 제약은 거의 없는 것 같다.

그리고 내부 데이터는 물론이고, 점차 공공기관의 자료도 개방되어서 예전과 비교할 수 없을 만큼 가지고 놀 수 있는 데이터는 충분하다고 생각한다.

5.

결국은 예전에 유행했던 트렌드도 그랬던 것 처럼 빅데이터 성공의 중요한 변수는 이것을 다루는 ‘사람’ 인것 같다.

그 분야에 ‘오랜 경험’을 가지고 있는 ‘호기심’ 많고 ‘창의적’이고 ‘상상력 풍부한’ 사람이 어느 정도의 확신을 배경으로 ‘가정’을 세우고 덤벼 들어야 데이터 ‘무더기’에서 뜻밖의 결과물을 만들어 내는 것이다.

데이터만 많다고 무엇이 이루어지는 것도 아니고, 통계나 전산을 전공했다고 되는 것도 아닌 것 같다.

6.

그런데 우리 주변에 특정 분야에서 경험도 풍부하고 전산을 이해하며 호기심과 상상력이 풍부한 창의성 있는 사람이 과연 있는가 싶기도 하고, 그런 사람이 마침 데이터를 다룰 수 있는 위치에 있어야 하니 여러가지로 빅데이터의 성공은 어려운 일인 것 같다.

** 그림출처 : Ben Chams – Fotolia

IT

[Big Data] Tìm hiểu về Apache Hadoop - Phần 1

Apache Hadoop là gì ? 

Nhắc đến Big Data, chúng ta không thể bỏ qua Apache Hadoop. Đây là một nền tảng mã nguồn mở được phát triển bằng ngôn ngữ Java.  361 more words

Lập Trình Java

[Big Data] Giới thiệu về Big Data

Big Data, với ngôn trình độ của 1 người dốt anh văn như mình thì tạm hiểu nôm na là “Dữ liệu lớn” và nó được mình hiểu là dữ liệu có kích thước lớn.  409 more words

Lập Trình Java