목록
아래로
위로

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요?

12
이니스프리
2020.07.08. 12:19
조회 수 252

안녕하세요?

날씨가 무더운데 다들 건강히 계시는지요?? ^^

수천~수만 개의 이미지 파일이 주어졌을 때 이미지의 중복 여부를 빠르게 검사하는 방법이 있을까요?

(1) 속도가 중요하고, (2) 특이도보다는 민감도가 중요한 상황이네요~

해쉬값을 비교하는 방법도 있을 것 같고 그 외에도 여러 방법이 있을 것 같은데 좋은 아이디어가 안 떠오르네요 ㅠㅠ

공개된 프로그램도 좋고, 스크립트를 작성하는 방식도 좋아요!

아이디어나 관련된 정보가 있으시면 답변을 부탁드릴게요 :)

그럼 맛점 드시고 좋은 오후 되세요!

미리 감사드려요 ^-^

작성자

이니스프리 119 Lv. (2%) 4180930/115200000EXP

Make StudyForUs Great Again!

NoYeah

해시값이 제일 정확하겠지만
바이트 단위의 용량으로 추려내도 잘 걸러지지 않을까요??

2020.07.08. 19:57

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah

감사합니다!
저도 러프하지만 (바이트 단위의 용량 + 이미지 가로세로 사이즈)로 걸러내는 방법을 생각하긴 했네요 ^^
일단 이 방법으로 가능한 한 효율적인 알고리즘을 구현해보도록 할게요 :)

2020.07.08. 20:49

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 이니스프리

해상도나 dpi가 다른 이미지는 걸러내기 어려운 로직이네요.

만약 이미지를 일정 크기로 변환하여 랜덤한 몇 군데의 픽셀의 색상값을 저장(데이터베이스 화)했다가 동일한 픽셀값을 갖는 이미지들을 분류해 낸다면 정확도는 올라갈것 같습니다.

2020.07.08. 20:55

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah

오오~ 좋은 아이디어를 제공해주셔서 감사합니다!
제 수준에서 파일이 아주 많을 경우에 효율적인 스크립트를 작성하기는 어렵겠지만, 일단 시도는 해볼게요.
그럼 마스터 님께서도 편안한 저녁 되세요 ^^

2020.07.08. 21:07

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

GsusWeb → 이니스프리

오 저도 궁금해하던 기능이네요.
구현되면 저도 시연에 참여해볼게요^^

아래 두 분의 이야기는 겨우 감만 잡아보네요.. ^^;

2020.07.09. 00:03

"GsusWeb님의 댓글"

이 댓글을 신고 하시겠습니까?

네모 → NoYeah

이정도로 할거라면
차라리 아예 Raw한 값으로 읽어서 a번째 문자부터 a+n번째 글짜를 기록하고 그 값을 비교하는게 속도 면에서는 더 빠르겠네요.
파일을 전부 읽을 필요 없이 0~a+n 만 읽어내면 되고, n 값도 적당한 사이즈로만 조절하면 겹치는 내용도 별로 없을거구요.
다만 파일에 따라 전체길이보다 더 큰 좌표를 찍어 읽어내는건 방지해야겠지요.

2020.07.08. 23:08

"네모님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 네모

아무래도 코딩에 문외한이라 막말로 픽셀값이라고 했지만 제가 생각한 방법이랑 거의 유사합니다.
나머지는 개발자의 역량에 달린걸로 ㅋㅋㅋ

2020.07.08. 23:17

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 네모

조언해주셔서 감사합니다!
말씀해주신 방법이 속도 측면에서는 훨씬 빠르겠네요 ^^
이 방법을 공부해서 구현해보도록 하겠습니다.
그럼 날씨가 무덥지만 네모 님께서도 좋은 하루 되세요!!

2020.07.09. 09:47

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자

참고로 단순히 이미지의 동일성만을 비교할 때에는 아래 스크립트가 효율적이네요 ^^
https://stackoverflow.com/questions/748675/finding-duplicate-files-and-removing-them

2020.07.09. 12:21

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

포인트 폭탄+ → 이니스프리

이니스프리님 축하합니다.
추가로 200포인트만큼 포인트 폭탄+를 받았습니다.

수정 삭제

2020.07.09. 12:21

"포인트 폭탄+님의 댓글"

이 댓글을 신고 하시겠습니까?

삭제

갱생협스

https://www.duplicatephotocleaner.com/
이런 프로그램도 있네요!

속도가 중요하면, 사진을 raw로 읽어와 랜덤한 위치의 몇 글자를 대조해보는것도 방법일 것 같습니다. 헤더부터 끝까지 읽기엔 시간이 너무 오래 걸릴테니 말이죠 ㅠㅠ
근데 이 방법은 어딘가가 수정되거나(일부 모자이크 등), 이미지 확장자가 다르면 검출해내기 쉽지 않을 것 같네요!

2020.07.10. 14:08

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 갱생협스

오오~ 감사합니다!
일단 급한대로 파이썬으로 구현하기는 했는데 아무래도 이런 공개된 소프트웨어가 더 효율적으로 작동하겠죠 ^^
raw로 읽어와서 비교하는 방식도 구현해봐야겠네요 :)
그럼 즐거운 주말 되세요~!
다시 한 번 감사드립니다 ^-^

2020.07.10. 21:24

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.

번호	제목	글쓴이	날짜	조회 수
공지	시스템 점검 작업 완료 안내 10	마스터	24.09.05.16:25	2450
공지	[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4	마스터	23.01.14.02:23	9558
공지	[필독] 질문하는 방법 17	마스터	18.02.23.03:09	4886
786	서버 관련해서 문의드립니다! 1	도돌이폰	20.08.27.09:55	148
785	우분투에서 타임존 변경 및 시간 설정에 대해 질문 드립니다. 9	이니스프리	20.08.12.13:58	316
784	crontab이 task를 전혀 실행하지 않네요 ㅠㅠ 8	이니스프리	20.08.11.16:50	497
783	[파이썬] concurrent.futures에서 ThreadPoolExecutor의 사용과 관련하여 질문 드립니다 4	이니스프리	20.08.09.14:16	1035
782	파이썬 Requests에서 session을 닫는 방법에 대해 질문 드립니다.	이니스프리	20.08.06.20:51	207
781	브라우저에서 한글이 깨져보이는 문제... 7	슬기	20.07.18.20:39	244
780	TTFB 2	Apache	20.07.14.22:07	231
779	인증서 갱신이 안된 것 같네요.. 4	Tilto_	20.07.12.20:13	166
778	서버 호스팅 이사 잘 했다고 생각했는데 사이트 접속이 안됩니다 ㅜ_ㅜ 14	그라페인	20.07.09.18:20	506
777	혹시 infinityfree무료호스팅 아시는 분 계신가요? 8	워린이	20.07.08.16:03	1440
776	안녕하세요 git을 사용해서 라이믹스를 설치하려고 하고 있습니다 ㅎㅎ 6	그라페인	20.07.08.14:57	469
	다수의 이미지의 중복 여부를 검사하는 방법이 있을까요? 12	이니스프리	20.07.08.12:19	252
774	구글 검색 노출을 빠르게 하는방법? 질문 14	슬기	20.07.07.23:51	202
773	간단한 질문 드립니다 2	{Cog}	20.07.07.18:44	144
772	개인 서버 구축? 8	GsusWeb	20.07.03.12:46	422
771	SSL 6	Apache	20.07.02.23:11	167
770	구글 드라이브 임베디드 오디오 개인 페이지에서 사용 가능한가요? 2	GsusWeb	20.07.02.14:35	184
769	XE 1.4.XXX 버전 사용하는데 모바일 레이아웃이 계속 적용이 안 되네요. 1	αGO	20.07.02.10:09	79
768	Sd카드.... 인식.... 도와주세요..., 5	{Cog}	20.07.01.23:59	154
767	글쓰기 템플릿도 있나요? 4	GsusWeb	20.07.01.11:38	213

번호

제목

글쓴이

날짜

조회 수

공지

시스템 점검 작업 완료 안내 10

마스터

24.09.05.16:25

2450

공지

[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4

마스터

23.01.14.02:23

9558

공지

[필독] 질문하는 방법 17

마스터

18.02.23.03:09

4886

786

서버 관련해서 문의드립니다! 1

도돌이폰

20.08.27.09:55

148

785

우분투에서 타임존 변경 및 시간 설정에 대해 질문 드립니다. 9

이니스프리

20.08.12.13:58

316

784

crontab이 task를 전혀 실행하지 않네요 ㅠㅠ 8

이니스프리

20.08.11.16:50

497

783

[파이썬] concurrent.futures에서 ThreadPoolExecutor의 사용과 관련하여 질문 드립니다 4

이니스프리

20.08.09.14:16

1035

782

파이썬 Requests에서 session을 닫는 방법에 대해 질문 드립니다.

이니스프리

20.08.06.20:51

207

781

브라우저에서 한글이 깨져보이는 문제... 7

슬기

20.07.18.20:39

244

780

TTFB 2

Apache

20.07.14.22:07

231

779

인증서 갱신이 안된 것 같네요.. 4

Tilto_

20.07.12.20:13

166

778

서버 호스팅 이사 잘 했다고 생각했는데 사이트 접속이 안됩니다 ㅜ_ㅜ 14

그라페인

20.07.09.18:20

506

777

혹시 infinityfree무료호스팅 아시는 분 계신가요? 8

워린이

20.07.08.16:03

1440

776

안녕하세요 git을 사용해서 라이믹스를 설치하려고 하고 있습니다 ㅎㅎ 6

그라페인

20.07.08.14:57

469

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요? 12

이니스프리

20.07.08.12:19

252

774

구글 검색 노출을 빠르게 하는방법? 질문 14

슬기

20.07.07.23:51

202

773

간단한 질문 드립니다 2

{Cog}

20.07.07.18:44

144

772

개인 서버 구축? 8

GsusWeb

20.07.03.12:46

422

771

SSL 6

Apache

20.07.02.23:11

167

770

구글 드라이브 임베디드 오디오 개인 페이지에서 사용 가능한가요? 2

GsusWeb

20.07.02.14:35

184

769

XE 1.4.XXX 버전 사용하는데 모바일 레이아웃이 계속 적용이 안 되네요. 1

αGO

20.07.02.10:09

768

Sd카드.... 인식.... 도와주세요..., 5

{Cog}

20.07.01.23:59

154

767

글쓰기 템플릿도 있나요? 4

GsusWeb

20.07.01.11:38

213

도와주세요

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요?

작성자

이니스프리 119 Lv. (2%) 4180930/115200000EXP

댓글 12

신고

신고

신고

신고

신고

신고

신고

신고

신고

신고

삭제

신고

신고

검색

스터디 최근글 [1/]

로그인

작성자 이니스프리 119 Lv. (2%) 4180930/115200000EXP

댓글 12

신고

신고

신고

신고

신고

신고

신고

신고

신고

신고

삭제

신고

신고

검색

로그인

작성자

이니스프리 119 Lv. (2%) 4180930/115200000EXP